fbpx

L'habileté de l'Assistant Google à comprendre le langage laisse sans voix. Le naturel du robot conversationnel entraîne des questions sur ses méthodes d'apprentissage.

par Servan Le Janne | 26 mai 2018

Allô robot

Sur scène, Sundar Pichai croise les doigts. Au-dessus de la rangée de projec­teurs qui braquent leurs lumières bleues dans son dos, un écran de télé­phone géant s’anime. « Bonjour, comment puis-je vous aider ? » demande l’As­sis­tant Google. En ce début du mois de mai 2018, le PDG de la firme lui commande de prendre un rendez-vous chez le coif­feur, depuis le Shore­line Amphi­theatre de Moun­tain View, en Cali­for­nie. Il n’a qu’à bouger les lèvres près d’un micro-oreillette. Ensuite, l’As­sis­tant compose le numéro. « J’ap­pelle pour une coupe de cheveux le 3 mai », annonce une voix de femme avec un natu­rel désar­mant. À l’autre bout du fil, l’in­ter­lo­cu­trice ne se doute pas qu’elle commu­nique avec un ordi­na­teur. Elle consulte son agenda, pose une série de ques­tions et convient de rece­voir ce nouveau client à midi. Les applau­dis­se­ments pleuvent sur Sundar Pichai, fier de son effet.

Le PDG de Google, Sundar Pichai 
Crédits : Sam Chur­chill

« Ce qui est extra­or­di­naire, c’est que l’As­sis­tant peut comprendre les nuances de la conver­sa­tion », vante le patron. « Cela fait des années que nous travaillons sur cette tech­no­lo­gie, elle s’ap­pelle Google Duplex. » Les échanges qui prennent des tour­nures inat­ten­dues ne lui résistent pas davan­tage. Elle devrait être testée cet été « pour aider les utili­sa­teurs à faire des réser­va­tions au restau­rant, prévoir des rendez-vous chez le coif­feur et poser des congés par télé­phone ». À la diffé­rence des autres robots conver­sa­tion­nels, dont le registre est mono­corde, ce proto­type possède une voix fluide. Son habi­leté à comprendre le langage employé lui permet de s’in­té­grer à une conver­sa­tion, plutôt que de néces­si­ter une adap­ta­tion de l’in­ter­lo­cu­teur humain.

Pour produire des conver­sa­tions qui sonnent aussi natu­relles, Google Duplex s’ap­puie sur un réseau de neurones arti­fi­ciels récur­rents, c’est-à-dire sur une batte­rie d’au­to­mates qui, dans leurs inter­re­la­tions, copient le fonc­tion­ne­ment du cerveau humain. Une fois assem­blé à l’aide d’un programme de Google, TensorF­low, cet engre­nage se rode en prenant exemple sur des enre­gis­tre­ments télé­pho­niques. De la recon­nais­sance vocale à la compré­hen­sion des concepts en passant par l’au­dio, chaque tâche est inté­grée de façon sépa­rée. Le modèle est ensuite parachevé par « l’op­ti­mi­sa­tion hyper-para­mé­trée », décrivent Yaniv Levia­than et Yossi Matias. Dans un article de blog, les ingé­nieurs de Google promettent que Duplex est capable des mener des conver­sa­tions et de remplir la plupart de ses tâches en totale auto­no­mie, sans l’in­ter­ven­tion de l’homme.

Pour sché­ma­ti­ser, l’ap­pren­tis­sage d’un tel système est, disent-ils, compa­rable à celui de beau­coup de disci­plines. Un auto­mate instruc­teur est chargé de super­vi­ser la leçon, déli­vrant conseils et correc­tifs lorsque c’est néces­saire. Dans ce cas, « il s’agit de prédire une variable en fonc­tion de données », défi­nit Alexandre Beretta, Data Scien­tist chez OUI.sncf. « Par exemple, connais­sant le rapport habi­tuel entre le poids et le taille, j’es­saye de connaître l’un par rapport à l’autre pour un indi­vidu donné. » Ici, « des opéra­teurs experts jouent le rôle d’ins­truc­teurs », détaillent Yaniv Levia­than et Yossi Matias. « En diri­geant le système quand un appel est passé, ils peuvent en affec­ter le compor­te­ment en temps réel. Cela se pour­suit jusqu’à ce que le système ait atteint la qualité dési­rée, stade à partir duquel la super­vi­sion s’ar­rête et le système peut passer des appels seul. » D’autres machines savantes fonc­tionnent sans cette hiérar­chie : « Les algo­rithmes non super­vi­sés servent plus à la recon­nais­sance de formes à travers des données », pour­suit Alexandre Beretta.

Voyages-sncf.com a mis en place son bot sur Face­book Messen­ger début 2016 et, lorsque le site est devenu OUI.sncf, il a été doté d’un robot conver­sa­tion­nel. La tech­no­lo­gie NLP pour Natu­rel Language Proces­sing permet à ce dernier d’ap­prendre le langage de l’uti­li­sa­teur et ainsi de s’adap­ter en fonc­tion des diffé­rents registres utili­sés. Les clients qui sous­crivent un abon­ne­ment TGVmax peuvent « aban­don­ner le cour­rier, l’e-mail et le fax », indique Rachel Picard, direc­trice géné­rale de Voyages SNCF, présente à VivaTech le 24 mai. « On est que sur de l’ins­tan­tané, sur du messen­ger, sur du chat, sur des réseaux sociaux. » Au total, les millen­nials abon­nés font près de 20 000 réser­va­tions TGVmax par mois via les bots du groupe.

À partir de TensorF­low, Google annonçait en juillet dernier avoir donné vie à AlphaGo Zéro, une machine inté­grant les règles du jeu de go par elle-même, pas à pas, sans inter­ven­tion exté­rieure. Basée sur une version anté­rieure, Alpha Go, le programme ne dispo­sait que d’une feuille de score vierge et des règles. « Il a joué contre lui-même des millions de fois », explique Alexandre Beretta, et, en 72 heures, il avait parfai­te­ment compris le prin­cipe et se révé­lait suffi­sam­ment doué pour vaincre son prédé­ces­seur 100 fois d’af­fi­lée. « J’es­père que ce type d’al­go­rithmes travaillera quoti­dien­ne­ment avec nous en tant qu’ex­pert médi­cal afin de repous­ser les limites de la science », glisse Demis Hassa­bis, co-fonda­teur de la filiale de Google DeepMind.

Pour le moment, Duplex est programmé pour enga­ger des discus­sions sur des sujets donnés, dont il connaît le voca­bu­laire. Mais sa palette va évidem­ment s’élar­gir. L’in­tel­li­gence arti­fi­cielle à venir ne se conten­tera du reste pas de compo­ser des phrases, mais maniera des images. Les cher­cheurs du Compu­ta­tio­nal Neuros­cience Labo­ra­to­ries de Kyoto sont parve­nus à lui faire repro­duire les formes imagi­nées par un sujet humain à partir d’ondes céré­brales. La diffé­rence entre le fruit d’un cerveau humain et le produit d’un réseau de neurones arti­fi­ciels risque donc de s’es­tom­per à mesure que Google progresse. Car, grâce à Duplex, la multi­na­tio­nale « est désor­mais en avance sur Apple, dont l’as­sis­tant Siri ne progresse que lente­ment », juge Le Monde.

Guerre de neurones

Siri fait désor­mais partie des meubles. L’ap­pli­ca­tion de commande vocale présen­tée en 2011 répond à bien moins de ques­tions qu’As­sis­tant, Alexa et Cortana, ses équi­va­lents conçus respec­ti­ve­ment par Google, Amazon et Micro­soft, à en croire une étude de l’agence améri­caine Stone Temple Consul­ting. Il faut dire que la tech­no­lo­gie a consi­dé­ra­ble­ment évolué depuis sept ans. « À l’époque, nous pensions à un algo­rithme fonc­tion­nant sur une ou quelques machines », se souvient le concep­teur d’un des précur­seurs de Siri, Antoine Blon­deau. Aujourd’­hui, le Français dirige Sentient Tech­no­lo­gies, une entre­prise spécia­li­sée dans l’in­tel­li­gence arti­fi­cielle à desti­na­tion du e-commerce. « Les données les plus impor­tantes sont celles qui résultent de l’in­te­rac­tion », décrit-il. « Un système intel­li­gent peut deve­nir très bon, sans trop d’élé­ments de base, grâce à ces inter­ac­tions. »

Pari­sien de nais­sance, Antoine Blon­deau est doué, très jeune, pour faire le lien entre les diffé­rents éléments du monde. Il s’in­té­resse à ses compo­santes telles que formu­lée par la physique et les mathé­ma­tiques. Lorsque sa mère lui achète un Apple 2-Plus, un modèle d’or­di­na­teur sorti en 1979, l’ado­les­cent est ravi. Le code infor­ma­tique lui permet de conce­voir un programme qui élabore des recettes, alors même qu’il n’y connaît rien en cuisine. Car c’est là le rôle de l’in­tel­li­gence arti­fi­cielle : « Il ne s’agit pas néces­sai­re­ment de rempla­cer le cerveau humain mais de l’aug­men­ter, autre­ment dit de combler ses manques et de lui donner une super intel­li­gence. »

Les premiers robots ne sont pas si ambi­tieux. En 1929, le biolo­giste japo­nais Makoto Nishi­mura baptise son modèle Gake­ten­soku, ce qui signi­fie « apprendre des lois de la nature ». Dans le même ordre d’idée, les Améri­cains Warren McCul­loch et Walter Pitts explorent la possi­bi­lité d’ « imiter le cerveau ». Leur article de 1943, « A logi­cal Calcu­lus of the Ideas Immanent in Nervous Acti­vity » propose la forma­tion de réseaux neuro­naux arti­fi­ciels sur le modèle de ceux que l’on trouve dans la nature. Mais évidem­ment, l’am­bi­tion n’est pas de les repro­duire à l’iden­tique : la machine possède quelques avan­tages sur l’homme en ce qu’elle peut rapi­de­ment « calcu­ler, conclure et opérer des choix ; elle peut faire des calculs avec de l’in­for­ma­tion », observe l’in­for­ma­ti­cien améri­cain Edmund Berke­ley, dans Giant Brains: Or Machines That Think, en 1949. Et d’en conclure : « Par consé­quent, une machine peut penser. »

Les idées de Warren McCul­loch et Walter Pitts ne tardent pas à être appliquées. Dès 1951, deux docto­rants en mathé­ma­tiques de Harvard, Marvin Minsky et Dean Edmonds, forgent la première machine neuro­nale, le Snarc (Stochas­tic Neural Analog Rein­for­ce­ment Calcu­la­tor). Inspiré par ces recherches, le psycho­logue Frank Rosen­blatt crée le Percep­tron, un appa­reil capable de recon­naître des formes par appren­tis­sage, grâce à des signaux envoyés en fonc­tion de la quan­tité de lumière reçue. Alors que le New York Times imagine le moment où il pourra « marcher, parler, voir, écrire, se repro­duire et être conscient de sa propre exis­tence », le New Yorker vante « une machine remarquable capable de quelque chose qui revient à penser ».

Antoine Blon­deau, PDG de Sentient
Crédits : Sentient

Après la nais­sance d’un programme de compré­hen­sion du langage natu­rel par ordi­na­teur dans les labo­ra­toires du Massa­chu­setts Insti­tute of Tech­no­logy (MIT), en 1964, Marvin Minsky met en évidence les limites des réseaux de neurones arti­fi­ciels dans un livre paru en 1969, Percep­trons. Peu de progrès sont réali­sés à cette période car « des cher­cheurs, non fami­liers de l’his­toire de ce champ, ont repro­duit beau­coup des erreurs commises plus tôt », juge Minsky dans la réédi­tion de l’ou­vrage en 1988.

Pour les corri­ger, on mise alors sur une nouvelle tech­nique d’ap­pren­tis­sage, la rétro­pro­pa­ga­tion. Elle donne notam­ment la possi­bi­lité de modi­fier de manière plus cali­brée les liai­sons sources d’er­reurs. Le modèle s’af­fine alors peu à peu. Une première borne de dialogue est mise en place par la SNCF en 1994. Et IBM fait sensa­tion trois ans plus tard grâce au super­or­di­na­teur Deep Blue, bour­reau du cham­pion d’échecs Garry Kaspa­rov. On parle main­te­nant de deep lear­ning. Trois ans plus tard, le robot nippon Asimo livre des commandes au restau­rant.

La crois­sance de l’IA

Depuis Gaken­ten­soku, en 1929, le Japon n’a rien perdu de son amour pour les robots. En 1981, le minis­tère de l’Éco­no­mie accorde pas loin de 676 millions d’eu­ros à un projet de déve­lop­pe­ment d’or­di­na­teurs « de cinquième géné­ra­tion » à même de conver­ser, traduire, inter­pré­ter des images et, in fine, de raison­ner. Antoine Blon­deau arrive quelques années plus tard à l’uni­ver­sité Chuo de Tokyo, pour profi­ter de l’ex­per­tise locale en infor­ma­tique. Malgré ses talents en physique et en mathé­ma­tiques, il a choisi d’étu­dier dans une école de commerce afin d’évi­ter de finir « dans le public ou dans une banque » à la sortie d’une école d’in­gé­nieurs. « J’étais inté­ressé par les oppor­tu­ni­tés que la science pouvait offrir en termes de créa­tion d’en­tre­prise. »

Marvin Minsky
Crédits : Seth Wood­worth

Après avoir travaillé quatre ans à Tokyo, le Français rallie Hong Kong pour diri­ger les ventes et le marke­ting du géant cana­dien Nortel en Asie. De là, en décembre 1998, il prend les rênes de Zi Corpo­ra­tion, une entre­prise de logi­ciels cana­dienne. Elle est à la pointe sur l’écri­ture prédic­tive grâce à son produit, l’EziText, un concur­rent du T9. En 2000, Antoine Blon­deau est engagé pour diri­ger Dejima, une autre société du secteur basée en Cali­for­nie. Il s’y perfec­tionne en trai­te­ment auto­ma­tique du langage natu­rel pour les besoins du projet Calo, dont les inno­va­tions servi­ront plus tard Siri, et y rencontre celui avec qui il fondera Sentient sept ans plus tard, Badak Hodjat.

Un jour, alors qu’il prend sa douche, le patron se met à rêver : et si l’in­tel­li­gence arti­fi­cielle finis­sait par être capable de régler la plupart de nos problèmes ? Il suffi­rait pour cela que les calculs de la machine soient suffi­sam­ment fins pour évoluer en fonc­tion du contexte. « Avant toute chose, il faut se concen­trer sur les problèmes que nous ne réglons pas bien en tant qu’es­pèce », estime-t-il. « Ensuite, nous pouvons trou­ver dans le déve­lop­pe­ment de la science algo­rith­mique de quoi les trai­ter. » Plus une ques­tion comporte de dimen­sions, plus la machine sera adap­tée pour s’en char­ger. Les algo­rithmes évolu­tion­nistes, dont le fonc­tion­ne­ment est inspiré de la théo­rie de l’évo­lu­tion, « sont bons pour ça car ils cherchent un opti­mum d’une manière non-linéaire, et leur fonc­tion­ne­ment et intel­li­gible », prend en exemple Antoine Blon­deau.

Grâce aux réseaux de neurones récur­rents, l’in­tel­li­gence arti­fi­cielle n’est pas seule­ment une redou­table joueuse d’échecs et de go. « Des robots ont appris à marcher et à sauter comme un enfant », remarque Alexandre Beretta, Data Scien­tist chez OUI.sncf. « Il suffit de défi­nir les règles et son compor­te­ment se modi­fiera ensuite en fonc­tion des gains ou puni­tions. C’est ainsi qu’une voiture auto­nome finit par comprendre qu’elle ne doit pas s’ap­pro­cher des bords. » Le OUIbot de la SNCF gagne lui aussi en talent à mesure que les voya­geurs l’uti­lisent à l’oral ou en tchat. Ils sont 70 000 à le faire chaque semaine.

L’IA peut servir à beau­coup de choses. À travers le projet Tech4Rail, elle aide à pilo­ter en temps réel la circu­la­tion des trains, les flux de voya­geurs, les maté­riels et les ressources humaines de la SNCF. Son appren­tis­sage analyse du reste les images de camé­ras pour en trans­mettre que celles qui sont perti­nentes dans le cadre du projet Cafeine. Autre­ment dit, les machines savent main­te­nant ce qu’il convient de dire ou de taire. Duplex prouve qu’elle manie avec un certain brio une des fonc­tions les plus complexes du compor­te­ment humain, le langage, au point de se faire passer pour un authen­tique être humain. On peut donc suppo­ser qu’elle réus­si­rait le fameux test de Turing, élaboré par le mathé­ma­ti­cien britan­nique du même nom fin d’éva­luer la capa­cité d’une machine à imiter la conver­sa­tion humaine. Est-ce à dire qu’elle pense ?

Un robot peintre conçu par le groupe alle­mand robot­lab
Crédits : Clau­dio Mode­rini

« Nous savons que le cerveau humain fonc­tionne diffé­rem­ment selon la fonc­tion qu’il accom­plit », compare Antoine Blon­deau. « Certaines parties s’ac­tivent à une vitesse parti­cu­lière. On ne peut donc pas voir le cerveau comme un tout. Mais de la même manière, on peut penser que les systèmes d’ap­pren­tis­sage auto­nomes n’uti­li­se­ront pas qu’une seule approche algo­rith­mique, ils seront le résul­tat d’une combi­nai­son de diffé­rents algo­rithmes fonc­tion­nant de concert. » Autre­ment dit, ils pour­ront à la fois discu­ter, jouer aux échecs et peindre un tableau. « Les intel­li­gences arti­fi­cielles ne sont pas encore les meilleurs artistes mais elles trouvent des solu­tions non-intui­tives en design ou dans la santé », ajoute-t-il. « Dans mon esprit, elles sont créa­tives. » L’IA n’a pas fini d’ap­prendre.


Couver­ture : Franck V.


Plus de Vivatech - Oui Sncf

Comment se dépla­cera-t-on dans la ville du futur selon Airbus ?

200k 25 mai 2018 stories . vivatech-ouisncf

VivaTech : les voitures volantes arrivent en 2018

113k 24 mai 2018 stories . vivatech-ouisncf