fbpx

par Steven Levy | 13 janvier 2016

« Je m’agrip­pai au bureau et me penchai vers elle tandis qu’elle me tendait l’en­ve­loppe, mais je refu­sai de la prendre. Le visage de la Femme se méta­mor­pho­sait : gonflant, pulsant… d’hor­ribles bajoues verdâtres et des crocs en jaillis­saient, tel le visage d’une murène ! …Des choses terribles se passaient tout autour de nous. Juste à côté de moi, un énorme reptile se faisait les dents sur le cou d’une femme, le tapis était une éponge gorgée de sang – impos­sible de marcher là-dessus, aucune adhé­rence. “Demande des chaus­sures de golf”, murmu­rai-je. “Sinon, on ne sortira jamais d’ici vivants. Tu vois comme ces lézards n’ont aucun problème à se dépla­cer dans cette boue ? C’est parce que leurs pattes ont des griffes.” “Des lézards ?” dit-il. “Si tu crois que nous sommes en danger ici, attends de voir ce qu’il se passe dans les ascen­seurs.” » — Hunter S. Thomp­son, Las Vegas Parano.

Nuit blanche

Aux premières heures du 18 mai 2015, Alexan­der Mord­vint­sev est violem­ment tiré de son sommeil. C’était un cauche­mar, m’a-t-il raconté lors de la toute première inter­view qu’il donnait sur son expé­rience. Ou du moins, c’était un rêve des plus étranges dans lequel un intrus péné­trait dans l’ap­par­te­ment de Zurich qu’ils occu­paient, sa femme enceinte, son fils de trois ans et lui, depuis quelques mois seule­ment. En novembre 2014, ils avaient emmé­nagé en Suisse depuis Saint-Péters­bourg, car l’in­for­ma­ti­cien avait obtenu un poste d’in­gé­nieur chez Google. À présent, il fait nuit noire et Mord­vint­sev, réveillé par son sommeil agité, saute du lit pour aller voir à la porte. Elle est bien fermée et tout est calme. Son esprit, lui, est tour­menté. « D’ac­cord, il est deux heures du matin, mais je n’ar­rive pas à dormir », se dit-il. « Autant faire un peu de code. »

ulyces-deepdream-01
La première image produite par Alexan­der Mord­vint­sev

Cette déci­sion lui a valu de déclen­cher un torrent d’images fantas­tiques, tout droit sorties de l’ima­gi­na­tion d’un extra­ter­restre. Des images qui ont intri­gué et désarçonné l’es­prit de tous ceux qui les ont vues. Elles ont révélé la puis­sance des réseaux neuro­naux arti­fi­ciels, qui seront peut-être un jour les seigneurs de la rela­tion toujours plus étroite que nous entre­te­nons avec l’in­tel­li­gence des machines. Enfin, cette déci­sion a changé la vie de Mord­vint­sev. Cette nuit-là, l’in­gé­nieur reprend un projet sur lequel il travaille depuis le début de l’an­née. Il est fasciné par les réseaux de neurones arti­fi­ciels, l’équi­valent pour les machines du système de connexions entre les neurones de notre cerveau – qui est lui-même encore un mystère pour nous. Aujourd’­hui, des réseaux neuro­naux arti­fi­ciels très sophis­tiqués sont à la source du deep lear­ning, le champ de recherche le plus bouillon­nant et le plus promet­teur du secteur de l’in­tel­li­gence arti­fi­cielle. Alexan­der bricole son propre réseau neuro­nal de recon­nais­sance visuelle, déve­loppé grâce à des outils open source. Un grand nombre d’ou­tils de ce type sont appa­rus ces dernières années avec l’ex­plo­sion de ce champ de recherche, qui s’est montré très effi­cace pour les travaux en rapport avec la vision par ordi­na­teur, ainsi que pour d’autres fonc­tions qui semblaient aupa­ra­vant insai­sis­sables.

Pour­tant, ce travail n’a rien à voir avec les fonc­tions offi­cielles de Morvint­sev. Google est bien l’un des leaders en matière de réseaux neuro­naux arti­fi­ciels avec, à son bord, Geof­frey Hinton, l’un des précur­seur dans ce domaine ; Jeff Dean, infor­ma­ti­cien de longue date chez Google et chef de l’équipe basée à Moun­tain View à l’ori­gine du réseau neuro­nal baptisé Google Brain ; ainsi que DeepMind, une nouvelle acqui­si­tion de la firme améri­caine, située à Londres et qui repousse les limites de l’in­tel­li­gence arti­fi­cielle. Mais Mord­vint­sev n’a aucun lien formel avec tout cela : lui travaille pour Safe Search, un programme qui empêche les spams et la porno­gra­phie d’in­fec­ter les résul­tats du moteur de recherche. Néan­moins, Google accepte que ses ingé­nieurs utilisent une partie de leur temps pour déve­lop­per des projets qui les passionnent. Pour Mord­vint­sev, il s’agit donc de réseaux neuro­naux et de systèmes de vision numé­rique. C’est en réalité le prolon­ge­ment d’un de ses anciens sujets de prédi­lec­tion : utili­ser l’in­for­ma­tique pour modé­li­ser des systèmes biolo­giques. Quelques années plus tôt, il s’amu­sait à simu­ler des récifs coral­liens.

ulyces-deepdream-02
L’uni­vers selon Deep Dream

En tant que néophyte des réseaux neuro­naux, Mord­vint­sev se rensei­gnait sur ce domaine dans son coin en s’im­pré­gnant d’ar­ticles de recherche et en jouant avec des systèmes déjà entraî­nés à recon­naître certains objets. Ce qui piquait le plus sa curio­sité est un des mystères propres aux réseaux neuro­naux et au deep lear­ning : pourquoi fonc­tionnent-ils aussi bien et qu’est-ce qu’il se trame à l’in­té­rieur de ces rouages ? D’autres cher­cheurs se posent les mêmes ques­tions et utilisent ce qu’on appelle des réseaux neuro­naux convo­lu­tion­nels (ConvNets) pour enquê­ter sur ces systèmes de vision et de recon­nais­sance arti­fi­ciels à diffé­rents éche­lons du proces­sus. Les ConvNets sont des systèmes spécia­li­sés dans la vision et la recon­nais­sance arti­fi­cielles : ils vont encore plus loin dans la méta­phore biolo­gique que les réseaux neuro­naux clas­siques, car ils ne corres­pondent pas à des systèmes d’ap­pren­tis­sage neuro­naux ordi­naires, et emploient les « neurones » à la manière des récep­teurs lumi­neux dans le cortex visuel. Une équipe de cher­cheurs du Visual Geome­try Group, à l’uni­ver­sité d’Ox­ford, a adopté une approche inté­res­sante : afin d’ana­ly­ser comment de tels systèmes de vision arti­fi­cielle peuvent recon­naître (c’est-à-dire clas­ser) des objets à un point donné du proces­sus d’ap­pren­tis­sage, ils ont demandé au réseau de géné­rer des images de ce qu’il perce­vait. En regar­dant ces images, les cher­cheurs ont eu une idée plus précise de la façon dont le réseau analysé fonc­tion­nait à ce moment-là. Mord­vint­sev voulait conti­nuer sur cette voie en lui faisant prendre un tour­nant fou : il était en train de coder pour créer un réseau neuro­nal qui fabrique­rait des images sensées qui n’exis­te­raient pas du tout dans le monde réel, ou du moins qui ne seraient pas perçues par l’homme. Des visions nées de machines, qui décou­le­raient des connexions neuro­nales méta­pho­riques de leur système.

Durant cette nuit agitée de mai, alors que sa femme et son fils dorment à poings fermés, il réalise l’équi­valent, en termes de codage, d’un réglage des para­mètres pour chan­ger l’objec­tif d’un réseau neuro­nal. « Il faut que je trouve quelque chose qui puisse augmen­ter la magni­tude du vecteur d’ac­ti­va­tion », se dit-il. « Un truc qui fera que, quel que soit ce que voit la machine dans ce lot d’images, on pourra en voir encore plus. » En d’autres termes, il voulait trans­for­mer la fonc­tion du réseau neuro­nal pour qu’au lieu de  recon­naître ce qu’il y avait dans l’image, il génère des choses qui pour­raient ne pas s’y trou­ver. Alors que le réseau est, comme à son habi­tude, en train de véri­fier si un motif donné est bien l’objet-cible du proces­sus, il lui indique de passer direc­te­ment à la géné­ra­tion d’image, afin de lui faire fabriquer lui-même son propre objet. Aupa­ra­vant, la fonc­tion d’un réseau neuro­nal convo­lu­tion­nel était d’ef­fec­tuer une recherche avan­cée, en s’at­ta­chant à filtrer les mauvais résul­tats et en faisant des prédic­tions de plus en plus précises. Là où le réseau convo­lu­tion­nel était l’équi­valent d’une conduite préven­tive, la façon de faire de Mord­vint­sev était plutôt du genre Fast and Furious. Il faisait ronfler le système avant d’écra­ser le frein soudai­ne­ment, pour enfin faire marche arrière. On pouvait presque voir les pixels être recra­chés tels des graviers boueux alors que les roues tour­naient sur l’as­phalte numé­rique et que le système tentait de saisir le moindre élément d’un objet qu’il pour­rait ensuite prendre la liberté d’étof­fer pour géné­rer d’in­croyables repré­sen­ta­tions issues d’images cibles.

ulyces-deepdream-03
Le post de blog origi­nal
Crédits : Google

Le plus compliqué était de parve­nir à ce que le système fasse ce qu’il veut, c’est-à-dire reve­nir constam­ment au début du proces­sus afin d’al­ler cher­cher, à chaque fois, de nouveaux modèles d’images pour en géné­rer d’autres – le tout au bon moment et avec le bon rythme. « Il est très simple d’écrire le code mais très déli­cat de trou­ver les bons para­mètres », affirme Mord­vint­sev. En réalité, le morceau de code qui permet­tait de trans­for­mer un réseau neuro­nal en système capable de produire à tour de bras des images issues de lui-même – et qu’on ne verrait pas autre­ment – n’est long que d’une tren­taine de lignes. Mais à ce jeu-là, Mord­vint­sev a vu juste. Les résul­tats ne se sont pas faits attendre. L’ou­til open source qu’il utili­sait pour fabriquer ses réseaux neuro­naux avait « appris », dans une base de données bien connue appe­lée ImageNet, à recon­naître des objets issues de 1 000 caté­go­ries diffé­rentes, dont 18 races de chiens. Il y a intro­duit une photo d’un beagle et d’un chaton, tous deux perchés à une branche d’arbre, avec une prai­rie en arrière-plan – qu’il avait trou­vée sur un site de fonds d’écran de bureau.

Habi­tuel­le­ment, on utilise le système de vision et de recon­nais­sance du réseau afin d’iden­ti­fier ce qu’il a vu, mais Mord­vint­sev espé­rait quelque chose de nouveau, de plus inat­tendu. Son code permet­tait d’ex­ploi­ter les neurones à mi-chemin du proces­sus de recon­nais­sance, ce qui rappor­tait des demi-indi­ca­tions du carac­tère canin par rapport à l’image de chien d’ori­gine. À mesure que ce va-et-vient se répé­tait, Mordint­sev a obtenu un résul­tat qui n’avait rien de « normal ». Dans une accep­tion large du terme, l’image repré­sen­tait bien un chien, ce qui peut éton­ner, étant donné que l’image d’ori­gine qu’il avait choi­sie n’était pas celle du beagle mais celle du chaton – mais c’est compré­hen­sible quand on sait que la machine avait majo­ri­tai­re­ment « appris » avec des images de chiens de diffé­rentes races. Sur le front de la bête, on trou­vait une deuxième paire d’yeux. Tout droit sortis de son arrière-train de chien avaient poussé un museau indé­pen­dant avec une autre paire d’yeux, très alertes et assez pertur­bants. En fait, des bouts de gueule de chien appa­rais­saient à plein d’en­droits inat­ten­dus. D’un point de vue géné­ral, on aurait dit qu’une horrible infec­tion se cachait sous le pelage de l’ani­mal, grouillant de museaux et de paires d’yeux prêts à écla­ter à tout moment. À bien y regar­der, une paire d’yeux avait même percé au niveau de la mâchoire infé­rieure, de couleur rosâtre. L’ar­rière-plan de l’image, lui, qui appa­rais­sait comme une sorte de fond vert, était composé d’une tapis­se­rie de motifs complexes, comme si des Aztèques avaient peint la surface avec leurs doigts. Par-ci, par-là, on aurait dit que des arai­gnées avaient traversé à plusieurs endroits du mur pour produire ce qui ressem­blait à des impacts de balles. Ce n’est pas par excès de préci­sion, mais l’image ressem­blait à l’œuvre d’un fou. Ou d’une personne sous LSD. Mais bien sûr, son origine n’était ni psychia­trique ni psycho­trope : elle était algo­rith­mique.

Certains des résul­tats les plus fous prove­naient de l’in­ter­pré­ta­tion par le réseau d’une image toute simple d’un ciel bleu avec des nuages.

Jusqu’ici, Mord­vint­sev avait refusé de parta­ger ses résul­tats à qui que ce soit. Il avait donné une confé­rence à propos de ses théo­ries plus tôt dans l’an­née et avait été remarqué par quelques scien­ti­fiques du domaine de la recherche chez Google, mais cette fois, il se sentait suffi­sam­ment sûr de lui pour publier des images issues de ses expé­riences, dont celle du chien méta­stasé, sur la version interne de Google Plus, unique­ment acces­sible à ceux qui travaillent pour Google. À 2 h 32 du matin, il a posté : « Pas sûr que c’était une bonne idée d’es­sayer d’amé­lio­rer une image issue d’un réseau neuro­nal numé­rique à 2 h du mat’. Comment je dors, moi, main­te­nant ? » Il était encore très tôt à Zurich, mais c’était la fin d’après-midi à Moun­tain View – le soleil ne se couche jamais sur les centres de recherche de Google. La première réponse est appa­rue quelques secondes seule­ment après le message de Mord­vint­sev, suivie d’une avalanche de réponses et de +1.

Incep­tion

La publi­ca­tion de Mord­vint­sev a provoqué l’ani­ma­tion dans la commu­nauté Google et a reçu 162 +1 et plus de 60 commen­taires, un nombre assez inha­bi­tuel pour un message venu d’un ingé­nieur lambda de l’équipe Safe Search. Parmi eux, deux ingé­nieurs étaient parti­cu­liè­re­ment capti­vés par l’ex­pé­rience de Mord­vint­sev. Le premier était un stagiaire qui travaillait sur le deep lear­ning avec l’équipe de choc menée par Jeff Dean. Il s’ap­pe­lait Chris Olah, avait 22 ans et était en stage ici après avoir béné­fi­cié d’une bourse de deux ans grâce à un programme appelé 20 Under 20 (« 20 moins de 20 ans »), financé par l’en­tre­pre­neur Peter Thiel, qui paie 100 000 dollars de jeunes étudiants brillants pour qu’ils quittent l’école et conçoivent des choses à la place. En plus de son goût prononcé pour l’im­pres­sion 3D et le célèbre langage de program­ma­tion Haskell, Olah était obsédé par les réseaux neuro­naux et était donc, assez natu­rel­le­ment, intri­gué par la confé­rence donnée par Mord­vint­sev – et souf­flé par son post nocturne. « Je m’in­té­res­sais beau­coup à ces réseaux neuro­naux convo­lu­tion­nels et à ce qu’on savait de leur fonc­tion­ne­ment », m’a-t-il confié. Après avoir vu la publi­ca­tion de Mord­vint­sev sur Google Plus, Olah a reçu l’ac­cord de ses supé­rieurs pour colla­bo­rer à ce projet. Le travail d’in­ter­pré­ta­tion de la manière dont les réseaux neuro­naux parve­naient à visua­li­ser les objets qu’O­lah avait déjà mené s’est révélé indis­pen­sable pour explo­rer les décou­vertes de Mord­vint­sev.

ulyces-deepdream-04
Une autre folie psyché­dé­lique de Deep Dream

Autour de Mord­vint­sev est venu se gref­fer l’in­gé­nieur logi­ciel Michael Tyka. Biochi­miste de forma­tion, Mike s’est plutôt dirigé vers l’in­for­ma­tique afin de se concen­trer sur la simu­la­tion du replie­ment des protéines. Il travaillait alors avec l’équipe de Google basée à Seat­tle consa­crée au deep lear­ning. Il est égale­ment artiste et fabrique des sculp­tures inspi­rées du travail de replie­ment des protéines. Par ailleurs, il a fait partie d’un groupe d’ar­tistes qui ont construit une sculp­ture en forme de Rubik’s Cube de près de 11 mètres de haut… Récem­ment pris de passion pour les réseaux neuro­naux lui aussi, Tyka a perçu la publi­ca­tion de Mord­vint­sev autant comme une œuvre d’art que comme un objet de science. « Si on étudie le cas de la créa­ti­vité humaine, on peut voir qu’une petite partie de celle-ci réside dans la capa­cité à s’ac­ca­pa­rer des impres­sions et à les retrans­crire de manière inté­res­sante et inat­ten­due », dit-il. « Il est passion­nant de voir que les ordi­na­teurs peuvent nous sortir des trucs inat­ten­dus que même les humains n’ont jamais produits. » Tyka a commencé l’ex­pé­rience en abreu­vant le système de plusieurs images diffé­rentes et en reve­nant constam­ment au début du proces­sus, à la manière de Mord­vin­sev. Il a produit une gale­rie d’images sur lesquelles le réseau neuro­nal avait modi­fié chaque pixel, qui corres­pon­dait au début d’une autre image. Des montagnes sont deve­nues des pagodes, des feuilles se sont trans­for­mées en oiseaux et même les arrières-plans ont formé des dessins intriqués les uns dans les autres, comme si les démons inté­rieurs du réseau avaient été à l’école de l’ar­chi­tec­ture géomé­trique de l’Is­lam antique.

Quelques uns des résul­tats les plus fous prove­naient de l’in­ter­pré­ta­tion par le réseau d’une image toute simple d’un ciel bleu avec des nuages. Étran­ge­ment, le réseau neuro­nal montrait des scènes magiques, un peu comme quand les enfants imaginent des animaux et des objets à partir des nuages – sauf que ces visions ne se rédui­saient pas aux nuages mais appa­rais­saient égale­ment dans le ciel pour­tant uni. À partir de motifs indé­tec­tables pour un homme, le réseau a produit des espèces au-delà de toute taxo­no­mie. Chris Olah les a appe­lées Cochon-Escar­got, Pois­son-Chameau ou encore Chien-Oiseau.

photo (1)
Chris­to­pher Olah

Après ça, Tyka a fran­chi une étape de plus dans l’ex­pé­ri­men­ta­tion : au lieu de commen­cer par une image exis­tante, il lançait le proces­sus avec un bruit généré aléa­toi­re­ment, et il s’est éver­tué à réali­men­ter le système jusqu’à ce qu’il remplisse les motifs émer­gents qu’il recon­nais­sait en objets réels et en tapis­se­ries élabo­rées. « En faisant ça pendant quelques temps, tu perds néces­sai­re­ment la mémoire de la photo initiale, de toute façon », explique-t-il. « Donc en commençant avec du bruit généré aléa­toi­re­ment, ton image est entiè­re­ment géné­rée grâce aux seules connais­sances du réseau. » Plutôt que de suivre des motifs qui recréent vague­ment un objet-cible indiqué et le font appa­raître, ces réseaux neuro­naux étaient en pleine impro. Il a fallu peu de temps à Tyka pour qu’il obtienne de merveilleux résul­tats grâce à ces bruits pris au hasard et utili­sés comme base de recherche. Le réseau a dessiné des paysages imagi­naires incroyables, comme si Red Grooms et Robert Crumb se char­geaient d’illus­trer les clas­siques de la série Le Magi­cien d’Oz, de Frank Baum. Bien sûr, nous savons tous que les réseaux neuro­naux arti­fi­ciels sont des programmes infor­ma­tiques et n’ont pas à propre­ment parler d’ « esprit ». Pour­tant, on ne pouvait pas s’em­pê­cher de penser que ces résul­tats nous offraient une sorte de fenêtre vers le subcons­cient de ces réseaux.

De manière plus terre-à-terre, ces réali­sa­tions faisaient progres­ser Mord­vint­sev dans sa quête d’une meilleure compré­hen­sion de la manière dont fonc­tionnent les réseaux neuro­naux. À mesure que ses nouveaux colla­bo­ra­teurs et lui géné­raient plus d’images et condui­saient plus d’ex­pé­riences, ils commençaient à avoir une meilleure idée de la façon dont les réseaux neuro­naux inter­pré­taient notre monde. Chris Olah a trouvé quelque chose de parti­cu­liè­re­ment inté­res­sant : quand ils ont demandé au réseau de produire des images d’hal­tères, ils ont décou­vert une chose étrange. Aupa­ra­vant, les cher­cheurs consi­dé­raient que lorsqu’un réseau neuro­nal recon­nais­sait un haltère, il « voyait » l’objet comme un être humain le voyait – c’est-à-dire un petit objet métal­lique. Eh bien, ils avaient tort. Dans l’ « esprit » d’un réseau neuro­nal, un haltère était néces­sai­re­ment un objet sur lequel étaient atta­chés une main et un poignet humains. Image après image, le résul­tat qui s’esquis­sait montrait un poing et un poignet agrip­pant l’hal­tère. Ce type de données serait utiles dans l’ap­pren­tis­sage des réseaux neuro­naux futurs. Alors que les travaux de Mord­vint­sev atti­raient de plus en plus l’at­ten­tion chez Google, les respon­sables du groupe de recherche ont décidé que le projet devait être rendu public. Mord­vint­sev a suggéré à Olah, qui était lui-même un blogueur très actif, de colla­bo­rer sur un post de blog pour inci­ter au débat public. « Le meilleur moyen de parta­ger de tels résul­tats était proba­ble­ment de prolon­ger encore davan­tage notre expé­ri­men­ta­tion, puis d’écrire un article scien­ti­fique et de le rendre public dans quelques confé­rences », raconte Mord­vint­sev. « Mais je me suis dit qu’un billet de blog aurait plus d’im­pact car c’est plus rapide et que ça permet de parta­ger les choses beau­coup plus faci­le­ment. » Tyka s’est joint à lui, d’abord en l’ai­dant à écrire le texte du billet, puis en y repro­dui­sant une partie de ses propres expé­riences.

ulyces-deepdream-05
Michael Tyka

Dans leur post, l’équipe a baptisé leur méthode « Incep­tio­nisme », un hommage à un ancien article de cher­cheurs de chez Google à propos des ConvNets, qui avaient baptisé leur système d’après le film de Chris­to­pher Nolan. Ils ont décrit comment leur système fonc­tion­nait en prenant l’exemple d’une des trans­for­ma­tions réali­sées par Tyka, qui propo­sait un ciel criblé de nuages lais­sant appa­raître une ména­ge­rie effrayante. « Ce proces­sus joue sur une boucle rétro­ac­tive : si un nuage ressemble un peu à un oiseau, le réseau le fera ressem­bler encore plus à un oiseau. À force d’al­lers-retours, ce méca­nisme fait que le réseau recon­naî­tra toujours plus forte­ment un oiseau et ainsi de suite, jusqu’à ce qu’un oiseau très détaillé appa­raisse, comme sorti de nulle part. » Le trio a publié le billet sur le blog de recherche de Google le 17 juin et tout Inter­net est devenu dingue. En quelques jours, leurs images sont appa­rues dans plus de 100 articles et dans d’in­nom­brables tweets et posts Face­book. Des subred­dits, des billets de blogs et des forums consa­crés au deep lear­ning ont analysé chaque aspect de leur publi­ca­tion.

Pendant plusieurs années, les termes réseaux neuro­naux et deep lear­ning avaient été évoqués à tout va, lais­sant de marbre les non-scien­ti­fiques. À présent, il exis­tait des images qui, repré­sen­ta­tives ou non, incar­naient un point d’en­trée vers ces concepts compliqués. C’était un peu comme si l’in­tel­li­gence arti­fi­cielle peignait son auto­por­trait. Mais ce n’était qu’un début. Le 1er juillet, Google a publié sur GitHub les commandes de code qui permet­taient à chacun de réali­ser ses propres images. Dans ce laps de temps, les cher­cheurs de Google qui étaient à l’ori­gine du programme Incep­tion ont suggéré que ces nouveaux réseaux ne devraient pas porter le même nom pour éviter d’em­brouiller les gens. Cette nouvelle méthode a donc été appe­lée Deep Dream, un mot-valise qui évoquait à la fois le deep lear­ning des réseaux neuro­naux et la dimen­sion onirique et surréa­liste des résul­tats obte­nus. C’est qu’In­ter­net est vrai­ment devenu dingue. De nombreuses appli­ca­tions ont surgi de nulle part pour permettre aux gens ordi­naires de trans­for­mer leurs amou­reux en créa­tions cauche­mar­desques. Beau­coup de gens ont fait l’ex­pé­rience de trans­for­ma­tions aussi farfe­lues que la série de nuages géné­rée par Tyka, mais le truc le plus popu­laire sur les applis était d’uti­li­ser Deep Dream pour illus­trer le manga Beel­ze­bub. Des forums consa­crés à l’in­tel­li­gence arti­fi­cielle, des tweets avec le hash­tag #deep­dream et des images sorties du réseau Pinte­rest propo­saient des bestiaires de visions par ordi­na­teur dignes des toiles de Jérôme Bosch. Un des passe-temps favo­ris des inter­nautes consis­tait à passer dans le système Deep Dream les candi­dats à l’élec­tion prési­den­tielle améri­caine – parti­cu­liè­re­ment Trump – en les montrant comme s’ils sortaient tout droit de pages perdues des épreuves du roman graphique Las Vegas Parano, de Ralph Stead­man. Le groupe de rock Wilco a réalisé une image de chaton passée au Deep Dream qu’ils ont utilisé comme couver­ture d’al­bum, vendu sur leur site pour 20 dollars. Et bien évidem­ment, certains se sont amusés à passer des images porno­gra­phiques au trai­te­ment Deep Dream, obte­nant des résul­tats aussi incroya­ble­ment effroyables qu’on peut l’ima­gi­ner (les liens vers ces horreurs sont acces­sibles unique­ment sur demande). Un grand titre de Gizmodo a résumé le phéno­mène : « La machine à rêve de Google sauva­ge­ment lâchée sur Inter­net ».

« Dans cinq ans, Photo­shop ne parlera plus à personne. » — Samin Wini­ger

Une commu­nauté Deep Dream floris­sante a émergé. Samin Wini­ger, un des plus achar­nés du programme, était un déve­lop­peur suisse de jeux vidéo qui commençait à deve­nir célèbre, notam­ment pour son ancienne carrière de produc­teur de musique connu pour utili­ser de la tech­no­lo­gie de pointe. « Ce sont les premières images géné­rées par une machine qui entrent dans la culture pop depuis les frac­tales », m’a-t-il expliqué au cours d’une conver­sa­tion par Skype. Il a apporté sa propre contri­bu­tion en déve­lop­pant, en colla­bo­ra­tion avec Roelof Pieters, un programme qui pouvait créer des anima­tions à partir d’un logi­ciel de Deep Dream. Les deux compères ont récem­ment utilisé leur créa­tion pour réali­ser le clip d’une chan­son du groupe elec­tro­pop Years and Years. « Dans cinq ans, Photo­shop ne parlera plus à personne », affirme Wini­ger. À la place, les artistes et les illus­tra­teurs utili­se­ront une « boîte à outils » pour géné­rer des images supé­rieures à la réso­lu­tion humaine. Il appelle ça l’ « intel­li­gence arti­fi­cielle créa­tive ».

L’hal­tère

Mais la signi­fi­ca­tion de Deep Dream va bien au-delà de la ques­tion de l’art. Pour comprendre pourquoi l’ex­pé­rience de Mord­vint­sev importe de façon plus globale, il faut vous y connaître un mini­mum en matière de réseau neuro­nal arti­fi­ciel et de deep lear­ning. Commençons par décrire les réseaux de neurones. Il s’agit de neurones arti­fi­ciels répar­tis sur une pile de couches : les réseaux les plus « profonds » peuvent comp­ter 30 couches. Dans les systèmes de vision numé­rique, les cher­cheurs entraînent les réseaux neuro­naux en leur donnant des images à inter­pré­ter et en clas­sant les résul­tats. Tandis que ces images passent à travers le réseau, chaque couche l’ana­lyse un peu plus, concoc­tant une impres­sion globale de ce qu’elle voit. Après de multiples passages de l’image à travers le réseau, et en prenant en compte les retours sur l’exac­ti­tude de son inter­pré­ta­tion, le réseau ajuste de lui-même ses para­mètres afin de pouvoir correc­te­ment clas­ser des objets variés. Jusqu’à ce que la couche finale, qu’on appelle couche « de sortie », puisse déter­mi­ner habi­le­ment les objets qu’il a appris à recon­naître. Grâce aux amélio­ra­tions de ce champ de recherche au cours des dernières décen­nies, les réseaux neuro­naux sont passés du grenier de la recherche au secteur le plus porteur en matière d’in­tel­li­gence arti­fi­cielle. Les réseaux neuro­naux arti­fi­ciels à deep lear­ning (« compré­hen­sion profonde ») recon­naissent aujourd’­hui aisé­ment des images et inter­prètent le langage natu­rel avec tant d’exac­ti­tude qu’ils sont en train d’au­to­ma­ti­ser des métiers que seuls les êtres humains pouvaient aupa­ra­vant exer­cer. Mais il nous reste encore beau­coup à apprendre des réseaux neuro­naux arti­fi­ciels malgré tout. Jusqu’ici, le travail s’est foca­lisé sur les résul­tats, et ce qu’il se trame réel­le­ment lorsqu’un réseau neuro­nal commence ses ajus­te­ments de para­mètres auto-déter­mi­nés demeure un mystère.

ulyces-deepdream-06
New York sous acides

Il est donc diffi­cile de dire ce qu’il se passe à l’in­té­rieur d’un réseau neuro­nal effi­cace, et plus diffi­cile encore de comprendre dans quelle mesure ils fonc­tionnent comme de véri­tables cerveaux et dans quelle mesure ce n’est pas le cas. Mais à présent que nous avons la certi­tude qu’ils fonc­tionnent bel et bien, il nous faut comprendre comment, pour pouvoir amélio­rer la prochaine géné­ra­tion. C’est là toute l’uti­lité du proces­sus Deep Dream. Par exemple, dans l’une des diffé­rentes expé­riences, les cher­cheurs vont choi­sir quelle couche du réseau va être active pour amélio­rer les motifs qu’elle a détec­tés sur une photo­gra­phie donnée. S’ils choi­sissent l’une des couches les plus basses – celles qui émettent les premières hypo­thèses du système à l’égard de ce qu’une image contient –, ils vont obte­nir des motifs compliqués, car à ce moment-là le réseau est en train d’ana­ly­ser les contours des objets et ne s’oc­cupe pas encore de les clas­ser. Une autre expé­rience réali­sée exploite les couches les plus hautes, encou­ra­geant le système à impro­vi­ser à partir de ce qu’il a commencé à recon­naître. C’est là que les animaux bizarres appa­raissent. En plus de ce résul­tat fasci­nant, nous en avons appris davan­tage sur la façon dont fonc­tionnent les réseaux neuro­naux. Mais l’ex­pé­rience de Mord­vint­sev est impor­tante à un autre titre : elle souligne le vaste poten­tiel des réseaux de neurones arti­fi­ciels.

À mesure que ces réseaux se déve­loppent, ils se destinent non seule­ment à égaler les apti­tudes humaines dans certains domaines, mais aussi à les dépas­ser. Les réseaux neuro­naux convo­lu­tion­nels, par exemple, semblent avoir le poten­tiel d’être plus pers­pi­caces que les gens par certains côtés. Comme le montre l’ex­pé­rience Deep Dream, les réseaux neuro­naux peuvent voir des choses que nous ne voyons pas. Et on ne parle pas seule­ment ici de chiens enra­gés qui appa­raissent dans la nuque de quelqu’un, mais de phéno­mènes indé­tec­tables autre­ment qui présentent un réel inté­rêt pour nous. Par exemple, les scien­ti­fiques commencent à utili­ser les réseaux neuro­naux pour détec­ter le cancer lors d’écho­gra­phies. Ils peuvent aussi lui faire analy­ser des données pour obte­nir des prédic­tions rela­tives à la circu­la­tion. Dans le futur, les réseaux neuro­naux seront utili­sés pour amélio­rer, et dans certains cas rempla­cer l’être humain, dont la bande passante limi­tée peine à accom­plir certaines taches. Prenez par exemple l’agent de sécu­rité d’un aéro­port, qui contrôle sur un écran les passa­gers d’un vol. En plus d’éli­mi­ner les faiblesses humaines comme la fatigue ou la distrac­tion, un réseau neuro­nal pour­rait évoluer de telle façon qu’il puisse recon­naître des motifs subtils dans les objets rangés dans les bagages, ou même dans le compor­te­ment des passa­gers, et ainsi égaler (voire surclas­ser) les inter­ro­ga­tions pénibles des agents d’El Al Airlines. 🙂 building-dreams Il s’agit ici d’im­pli­ca­tions utili­taires, mais il existe aussi des impli­ca­tions philo­so­phiques. Scru­ter à la loupe les réseaux de neurones arti­fi­ciels est un moyen unique d’ex­plo­rer une façon alter­na­tive de perce­voir la réalité. Tandis que les ConvNets sont conçus pour imiter un proces­sus biolo­gique, nous savons bien que ce qu’il se passe en réalité dans ces systèmes infor­ma­tiques est très diffé­rent du fonc­tion­ne­ment de nos cerveaux. Prenez l’exemple cité plus tôt par Chris Olah, la façon dont les réseaux neuro­naux voient les haltères comme des objets auxquels sont atta­chés des mains humaines. D’un certain point de vue, cette erreur d’in­ter­pré­ta­tion peut sembler sans impor­tance. Il paraît évident que face à un flot inin­ter­rompu d’images d’hal­té­ro­philes, une machine peut être amenée à croire que la main humaine autour de l’hal­tère fait partie de l’hal­tère. Mais c’est égale­ment une porte ouverte sur une intel­li­gence non-humaine – et peut-être même un reproche adressé à la façon dont nous voyons les haltères. Je ne voudrais pas paraître trop kantien, mais serait-ce qu’un haltère n’est pas un haltère tant qu’une main humaine ne s’en est pas saisi ?

Pikazo

Peut-être que la ques­tion la plus dérou­tante de toutes n’est pas celle des diffé­rences qui existent entre les réseaux neuro­naux arti­fi­ciels et nos propres cerveaux, mais celle de leurs simi­la­ri­tés. Nos instincts nous disent que ces créa­tions infor­ma­tiques ne peuvent aller jusqu’à repro­duire les expres­sions les plus complexes de l’hu­ma­nité. Et voilà qu’une autre expé­rience de réseau neuro­nal hors de Google vient défier cette percep­tion : un réseau neuro­nal arti­fi­ciel qui, sur commande, altère une photo­gra­phie comme si l’un des plus grands artistes de l’his­toire l’avait créée. Il vient d’un trio de cher­cheurs basés à l’uni­ver­sité de Tubin­gen, en Alle­magne. Leon Gatys, docto­rant alle­mand au Bethge Lab de l’uni­ver­sité de Tubin­gen, travaillait avec une équipe entraî­née au calcul et à la neuros­cience pour tenter de comprendre les systèmes visuels biolo­gique et infor­ma­tique. Ils utili­saient des réseaux neuro­naux pour iden­ti­fier et fina­le­ment produire des textures plutôt que des objets, quand leur expé­rience a pris un tour étrange – était-il possible de pous­ser un réseau neuro­nal à trans­for­mer des images de façon créa­tive, à la manière d’un artiste iconique ? Un réseau neuro­nal pouvait-il comprendre une pein­ture avec les mêmes facul­tés analy­tiques qu’un histo­rien de l’art ? Pouvait-il agir comme un maître forge­ron, trans­for­mant la scène d’une photo­gra­phie en un résul­tat qu’on dirait tracé par le pinceau d’un peintre célèbre ? Pour y parve­nir, ils devaient apprendre au réseau neuro­nal à distin­guer le style du contenu, puis à iden­ti­fier si bien le style que le réseau pour­rait repro­duire une scène photo­gra­phique dans ce style.

1-eUI8sizUUfyXPD6lqthISw
Steven Levy par Pikazo

« Il n’était abso­lu­ment pas évident qu’il y aurait tous ces facteurs de varia­tion », dit Gatys. Mais après avoir appris à un réseau neuro­nal à diffé­ren­cier des objets dans des toiles célèbres et des photo­gra­phies de ces mêmes objets non affec­tés par l’ima­gi­na­tion artis­tique, ils ont été mira­cu­leu­se­ment capables de produire des images origi­nales, qui avaient l’air d’avoir été retrou­vées dans les ateliers de maîtres depuis long­temps dispa­rus. Dans leur article, inti­tulé « Un algo­rithme neuro­nal de style artis­tique », ils font la démons­tra­tion, en extra­yant le style de pein­tures très connues comme Le Cri de Munch, Compo­si­tion VII de Kandinsky, ou La Nuit étoi­lée de Van Gogh, avant d’en­trer des photo­gra­phies qui ressemblent loin­tai­ne­ment au sujet des pein­tures dans leur système. Les résul­tats ressemblent étran­ge­ment aux pein­tures. L’ar­ticle a été publié sur le Web en septembre de l’an­née dernière. Lorsqu’une version open source du logi­ciel est appa­rue, peu de temps après, une commu­nauté de graphistes déjà accro à Deep Dream s’est vautrée dans une nouvelle orgie de créa­tion. L’un des parti­ci­pants était Karl Stief­va­ter, un spécia­liste du graphisme infor­ma­tique (il a écrit le code qui a fait explo­ser le vais­seau de Neo dans la trilo­gie Matrix ; et plus récem­ment il a conçu des outils graphiques essen­tiels pour Linden Lab). Son appli­ca­tion iOS, Pikazo, propose des styles inspi­rés de sources non humaines : par exemple, l’une des options est d’ap­po­ser un style de circuit imprimé à une image. La trans­for­ma­tion n’est pas instan­ta­née, car « elle demande des opéra­tions à quatre quadril­lions de virgules flot­tantes », explique Stief­va­ter. Le succès de l’ex­pé­rience alle­mande – et l’ai­sance avec laquelle l’ap­pli­ca­tion de Stief­va­ter peut trans­for­mer vos photos de famille en chefs-d’œuvres de Klimt – pose de grandes ques­tions. Nous avons la preuve incon­tes­table que des cher­cheurs alle­mands ont construit un cerveau arti­fi­ciel qui peut « peindre » dans le style unique d’ar­tistes comme Kandinsky. Non, les réseaux de neurones arti­fi­ciels ne sont pas des cerveaux. Mais ils apprennent tout comme des cerveaux et voient les choses d’une manière quelque peu simi­laire. Peut-on alors apprendre quoi que ce soit du cerveau de Kandinsky en étudiant ces réseaux ? « C’est une ques­tion très diffi­cile », répond Gatys. « Nous mani­pu­lons la repré­sen­ta­tion pictu­rale. Mais il n’y a pas d’agent intel­li­gent en jeu. Il est très diffi­cile de comprendre ce que l’in­di­vidu Kandinsky avait en tête, ce qui l’a fait peindre ces images. » Stief­va­ter, de Pikazo, est d’avis que résoudre l’énigme que posent les formes les plus radi­cales de génie est en défi­ni­tive un problème mathé­ma­tique. « J’aime la créa­ti­vité artis­tique, mais je ne suis pas de ceux qui croient que la créa­tion est surna­tu­relle », dit-il. « C’est un méca­nisme, des rouages de pendule. » ulyces-deepdream-07

Le trio

Du moment où Mord­vint­sev et ses collègues ont publié sur le blog de recherche, un aspect en parti­cu­lier a frappé les gens immé­dia­te­ment et soulevé des ques­tions à propos des simi­li­tudes poten­tiel­le­ment vastes entre les réseaux neuro­naux arti­fi­ciel et biolo­gique. C’était la corré­la­tion étrange entre les images de Deep Dream et les hallu­ci­na­tions humaines provoquées par une forte dose de LSD ou de cham­pi­gnons hallu­ci­no­gènes. (Ou bien l’es­prit d’Hun­ter S. Thomp­son sous son régime normal de drogues en tout genre.) Les mêmes facteurs étaient-ils à l’œuvre dans les réseaux neuro­naux de Deep Dream et les cerveaux gorgés d’acides ? Certains cher­cheurs l’ont pensé. « Les images de Google ressemblent beau­coup à ce que vous pour­riez voir en prenant des drogues psyché­dé­liques ou pendant des hallu­ci­na­tions, et c’est parfai­te­ment logique », a confié Karl Fris­ton, profes­seur de neuros­cience à l’Uni­ver­sity College London, à la repor­ter Sophie Weiner. Google, vous l’ima­gi­nez bien, se serait bien passé de l’ana­lo­gie avec les drogues. De manière géné­rale, tout en soute­nant véri­ta­ble­ment le projet, la firme a semblé se déme­ner pour que la hype reste dans le contexte, car il y a des tonnes d’avan­cées en matière d’IA plus fonc­tion­nelles chez eux qui n’ont pas donné lieu à des images qui ont cassé Inter­net. (Un cher­cheur éminent exté­rieur à la compa­gnie décrit la travail de Deep Dream comme un « joli coup ».) Il m’a fallu des semaines pour persua­der la compa­gnie de me lais­ser inter­vie­wer l’équipe. Bien sûr, quand j’en ai eu l’oc­ca­sion, je leur ai demandé pourquoi les images de Deep Dream semblaient telle­ment psychés. Ils n’ont pas esquivé les impli­ca­tions. « Il y a une connexion profonde entre la façon dont notre réseau visuel marche et la façon dont fonc­tionne notre cerveau », explique Tyka. « C’est pourquoi je n’ai pas été surpris de trou­ver que des choses simi­laires pouvaient se produire dans des cerveaux biolo­giques. C’est-à-dire que si vous injec­tez des stimu­lants visuels dans des systèmes biolo­giques et que vous foutez le boxon dans les signaux synap­tiques et les neurones, vous allez forcé­ment avoir des sur-inter­pré­ta­tions et des distor­sions bizarres. Je pense donc qu’il y a une analo­gie ici. Et vous pour­riez même penser que la recherche dans le domaine des réseaux de neurones arti­fi­ciels pour­rait bien nous aider à mieux comprendre les réseaux biolo­giques. »

L’ex­pé­rience a changé la vie du trio qui a posté la trou­vaille origi­nale.

Mord­vint­sev est d’ac­cord. « Pour moi, c’est aussi le signe fort que nous allons dans la bonne direc­tion pour créer un système de vision infor­ma­tique construc­tif en utili­sant des réseaux neuro­naux convo­lu­tion­nels. Car ils semblent avoir des imper­fec­tions en commun. » C’est un concept ahuris­sant en lui-même. Se peut-il que les gens qui hallu­cinent et les réseaux neuro­naux de Deep Dream font l’ex­pé­rience de visions basées sur les mêmes signaux visuels ? Les deux systèmes ont-ils grand ouvert les mêmes portes de la percep­tion ? Combien ces réseaux peuvent-ils nous apprendre de nous-mêmes ? Soule­ver des ques­tions comme celle-ci, voilà pourquoi Deep Dream – même si certains le balaient d’un revers de main en le taxant de « joli coup » – est si impor­tant. La vira­lité extra­or­di­naire de ces images est un premier pas vers un examen plus profond des problèmes que nous pour­rions rencon­trer tandis que les réseaux neuro­naux et le deep lear­ning s’en­tre­lacent plus étroi­te­ment avec nos vies.

~

Qu’im­porte ce qui ressort du phéno­mène Deep Dream, l’ex­pé­rience a changé la vie du trio qui a posté la trou­vaille origi­nale. Alex Mord­vint­sev ne travaille plus à Safe Search, il fait main­te­nant partie d’une équipe de recherche sur l’ap­pren­tis­sage des machines chez Google, à Seat­tle. Main­te­nant que son stage est fini, Chris Olah est désor­mais un employé de Google à plein temps, dans l’équipe de recherche sur l’IA. Mike Tyka passe aujourd’­hui une partie de son temps à explo­rer la façon dont les artistes peuvent utili­ser les machines pour créer de l’art. Au moment où je les ai inter­viewés, quelques mois après leur post de blog, le trio ne s’était jamais rencon­tré en personne – seul Olah était dans la pièce avec moi, les autres parti­ci­paient à distance via Hangout. J’ai donc pris une photo d’Olah, qui se trou­vait dans la salle de confé­rence de Google avec moi, entre deux larges écrans sur lesquels on peut voir respec­ti­ve­ment, Mord­vint­sev à Zurich et Tyka à Seat­tle. Plus tard, je me suis demandé comment un réseau neuro­nal pour­rait inter­pré­ter cette photo de groupe. Selon les para­mètres, il peut iden­ti­fier préci­sé­ment les trois hommes par leur nom, et suppo­ser correc­te­ment que la photo a été prise dans une salle de confé­rence du campus de Google. En fait, Google Photos, un produit sorti quelques jours seule­ment avant la trou­vaille de Mord­vint­sev, utilise habi­le­ment des tech­niques de deep lear­ning pour se char­ger de taches comme celles-ci, plusieurs milliers de fois par jour. Mais peut-être que si l’on stimu­lait les bons neurones arti­fi­ciels, alors les machines regar­de­raient l’image jusqu’à ce que des têtes de chiens méchants tordues jaillissent des manches des ingé­nieurs, de leurs cols et de leurs oreilles. Qui peut dire quelle vision est la plus réelle ? 1-PTYAKCxMUqKDQvkqTr2Jnw


Traduit de l’an­glais par Kevin Poireault et Nico­las Prouillac d’après l’ar­ticle « Inside Deep Dreams: How Google Made Its Compu­ters Go Crazy », paru dans Back­chan­nel. Couver­ture : La Joconde vue par Deep Dream.

PLUS DE SCIENCE