Au cœur de Deep Dream : comment Google a rendu fous ses ordinateurs

« Je m’agrippai au bureau et me penchai vers elle tandis qu’elle me tendait l’enveloppe, mais je refusai de la prendre. Le visage de la Femme se métamorphosait : gonflant, pulsant… d’horribles bajoues verdâtres et des crocs en jaillissaient, tel le visage d’une murène ! …Des choses terribles se passaient tout autour de nous. Juste à côté de moi, un énorme reptile se faisait les dents sur le cou d’une femme, le tapis était une éponge gorgée de sang – impossible de marcher là-dessus, aucune adhérence. “Demande des chaussures de golf”, murmurai-je. “Sinon, on ne sortira jamais d’ici vivants. Tu vois comme ces lézards n’ont aucun problème à se déplacer dans cette boue ? C’est parce que leurs pattes ont des griffes.” “Des lézards ?” dit-il. “Si tu crois que nous sommes en danger ici, attends de voir ce qu’il se passe dans les ascenseurs.” » — Hunter S. Thompson, Las Vegas Parano.

Nuit blanche

Aux premières heures du 18 mai 2015, Alexander Mordvintsev est violemment tiré de son sommeil. C’était un cauchemar, m’a-t-il raconté lors de la toute première interview qu’il donnait sur son expérience. Ou du moins, c’était un rêve des plus étranges dans lequel un intrus pénétrait dans l’appartement de Zurich qu’ils occupaient, sa femme enceinte, son fils de trois ans et lui, depuis quelques mois seulement. En novembre 2014, ils avaient emménagé en Suisse depuis Saint-Pétersbourg, car l’informaticien avait obtenu un poste d’ingénieur chez Google. À présent, il fait nuit noire et Mordvintsev, réveillé par son sommeil agité, saute du lit pour aller voir à la porte. Elle est bien fermée et tout est calme. Son esprit, lui, est tourmenté. « D’accord, il est deux heures du matin, mais je n’arrive pas à dormir », se dit-il. « Autant faire un peu de code. »

La première image produite par Alexander Mordvintsev

Cette décision lui a valu de déclencher un torrent d’images fantastiques, tout droit sorties de l’imagination d’un extraterrestre. Des images qui ont intrigué et désarçonné l’esprit de tous ceux qui les ont vues. Elles ont révélé la puissance des réseaux neuronaux artificiels, qui seront peut-être un jour les seigneurs de la relation toujours plus étroite que nous entretenons avec l’intelligence des machines. Enfin, cette décision a changé la vie de Mordvintsev. Cette nuit-là, l’ingénieur reprend un projet sur lequel il travaille depuis le début de l’année. Il est fasciné par les réseaux de neurones artificiels, l’équivalent pour les machines du système de connexions entre les neurones de notre cerveau – qui est lui-même encore un mystère pour nous. Aujourd’hui, des réseaux neuronaux artificiels très sophistiqués sont à la source du deep learning, le champ de recherche le plus bouillonnant et le plus prometteur du secteur de l’intelligence artificielle. Alexander bricole son propre réseau neuronal de reconnaissance visuelle, développé grâce à des outils open source. Un grand nombre d’outils de ce type sont apparus ces dernières années avec l’explosion de ce champ de recherche, qui s’est montré très efficace pour les travaux en rapport avec la vision par ordinateur, ainsi que pour d’autres fonctions qui semblaient auparavant insaisissables.

Pourtant, ce travail n’a rien à voir avec les fonctions officielles de Morvintsev. Google est bien l’un des leaders en matière de réseaux neuronaux artificiels avec, à son bord, Geoffrey Hinton, l’un des précurseur dans ce domaine ; Jeff Dean, informaticien de longue date chez Google et chef de l’équipe basée à Mountain View à l’origine du réseau neuronal baptisé Google Brain ; ainsi que DeepMind, une nouvelle acquisition de la firme américaine, située à Londres et qui repousse les limites de l’intelligence artificielle. Mais Mordvintsev n’a aucun lien formel avec tout cela : lui travaille pour Safe Search, un programme qui empêche les spams et la pornographie d’infecter les résultats du moteur de recherche. Néanmoins, Google accepte que ses ingénieurs utilisent une partie de leur temps pour développer des projets qui les passionnent. Pour Mordvintsev, il s’agit donc de réseaux neuronaux et de systèmes de vision numérique. C’est en réalité le prolongement d’un de ses anciens sujets de prédilection : utiliser l’informatique pour modéliser des systèmes biologiques. Quelques années plus tôt, il s’amusait à simuler des récifs coralliens.

L’univers selon Deep Dream

En tant que néophyte des réseaux neuronaux, Mordvintsev se renseignait sur ce domaine dans son coin en s’imprégnant d’articles de recherche et en jouant avec des systèmes déjà entraînés à reconnaître certains objets. Ce qui piquait le plus sa curiosité est un des mystères propres aux réseaux neuronaux et au deep learning : pourquoi fonctionnent-ils aussi bien et qu’est-ce qu’il se trame à l’intérieur de ces rouages ? D’autres chercheurs se posent les mêmes questions et utilisent ce qu’on appelle des réseaux neuronaux convolutionnels (ConvNets) pour enquêter sur ces systèmes de vision et de reconnaissance artificiels à différents échelons du processus. Les ConvNets sont des systèmes spécialisés dans la vision et la reconnaissance artificielles : ils vont encore plus loin dans la métaphore biologique que les réseaux neuronaux classiques, car ils ne correspondent pas à des systèmes d’apprentissage neuronaux ordinaires, et emploient les « neurones » à la manière des récepteurs lumineux dans le cortex visuel. Une équipe de chercheurs du Visual Geometry Group, à l’université d’Oxford, a adopté une approche intéressante : afin d’analyser comment de tels systèmes de vision artificielle peuvent reconnaître (c’est-à-dire classer) des objets à un point donné du processus d’apprentissage, ils ont demandé au réseau de générer des images de ce qu’il percevait. En regardant ces images, les chercheurs ont eu une idée plus précise de la façon dont le réseau analysé fonctionnait à ce moment-là. Mordvintsev voulait continuer sur cette voie en lui faisant prendre un tournant fou : il était en train de coder pour créer un réseau neuronal qui fabriquerait des images sensées qui n’existeraient pas du tout dans le monde réel, ou du moins qui ne seraient pas perçues par l’homme. Des visions nées de machines, qui découleraient des connexions neuronales métaphoriques de leur système.

Durant cette nuit agitée de mai, alors que sa femme et son fils dorment à poings fermés, il réalise l’équivalent, en termes de codage, d’un réglage des paramètres pour changer l’objectif d’un réseau neuronal. « Il faut que je trouve quelque chose qui puisse augmenter la magnitude du vecteur d’activation », se dit-il. « Un truc qui fera que, quel que soit ce que voit la machine dans ce lot d’images, on pourra en voir encore plus. » En d’autres termes, il voulait transformer la fonction du réseau neuronal pour qu’au lieu de reconnaître ce qu’il y avait dans l’image, il génère des choses qui pourraient ne pas s’y trouver. Alors que le réseau est, comme à son habitude, en train de vérifier si un motif donné est bien l’objet-cible du processus, il lui indique de passer directement à la génération d’image, afin de lui faire fabriquer lui-même son propre objet. Auparavant, la fonction d’un réseau neuronal convolutionnel était d’effectuer une recherche avancée, en s’attachant à filtrer les mauvais résultats et en faisant des prédictions de plus en plus précises. Là où le réseau convolutionnel était l’équivalent d’une conduite préventive, la façon de faire de Mordvintsev était plutôt du genre Fast and Furious. Il faisait ronfler le système avant d’écraser le frein soudainement, pour enfin faire marche arrière. On pouvait presque voir les pixels être recrachés tels des graviers boueux alors que les roues tournaient sur l’asphalte numérique et que le système tentait de saisir le moindre élément d’un objet qu’il pourrait ensuite prendre la liberté d’étoffer pour générer d’incroyables représentations issues d’images cibles.

Le post de blog original
Crédits : Google

Le plus compliqué était de parvenir à ce que le système fasse ce qu’il veut, c’est-à-dire revenir constamment au début du processus afin d’aller chercher, à chaque fois, de nouveaux modèles d’images pour en générer d’autres – le tout au bon moment et avec le bon rythme. « Il est très simple d’écrire le code mais très délicat de trouver les bons paramètres », affirme Mordvintsev. En réalité, le morceau de code qui permettait de transformer un réseau neuronal en système capable de produire à tour de bras des images issues de lui-même – et qu’on ne verrait pas autrement – n’est long que d’une trentaine de lignes. Mais à ce jeu-là, Mordvintsev a vu juste. Les résultats ne se sont pas faits attendre. L’outil open source qu’il utilisait pour fabriquer ses réseaux neuronaux avait « appris », dans une base de données bien connue appelée ImageNet, à reconnaître des objets issues de 1 000 catégories différentes, dont 18 races de chiens. Il y a introduit une photo d’un beagle et d’un chaton, tous deux perchés à une branche d’arbre, avec une prairie en arrière-plan – qu’il avait trouvée sur un site de fonds d’écran de bureau.

Habituellement, on utilise le système de vision et de reconnaissance du réseau afin d’identifier ce qu’il a vu, mais Mordvintsev espérait quelque chose de nouveau, de plus inattendu. Son code permettait d’exploiter les neurones à mi-chemin du processus de reconnaissance, ce qui rapportait des demi-indications du caractère canin par rapport à l’image de chien d’origine. À mesure que ce va-et-vient se répétait, Mordintsev a obtenu un résultat qui n’avait rien de « normal ». Dans une acception large du terme, l’image représentait bien un chien, ce qui peut étonner, étant donné que l’image d’origine qu’il avait choisie n’était pas celle du beagle mais celle du chaton – mais c’est compréhensible quand on sait que la machine avait majoritairement « appris » avec des images de chiens de différentes races. Sur le front de la bête, on trouvait une deuxième paire d’yeux. Tout droit sortis de son arrière-train de chien avaient poussé un museau indépendant avec une autre paire d’yeux, très alertes et assez perturbants. En fait, des bouts de gueule de chien apparaissaient à plein d’endroits inattendus. D’un point de vue général, on aurait dit qu’une horrible infection se cachait sous le pelage de l’animal, grouillant de museaux et de paires d’yeux prêts à éclater à tout moment. À bien y regarder, une paire d’yeux avait même percé au niveau de la mâchoire inférieure, de couleur rosâtre. L’arrière-plan de l’image, lui, qui apparaissait comme une sorte de fond vert, était composé d’une tapisserie de motifs complexes, comme si des Aztèques avaient peint la surface avec leurs doigts. Par-ci, par-là, on aurait dit que des araignées avaient traversé à plusieurs endroits du mur pour produire ce qui ressemblait à des impacts de balles. Ce n’est pas par excès de précision, mais l’image ressemblait à l’œuvre d’un fou. Ou d’une personne sous LSD. Mais bien sûr, son origine n’était ni psychiatrique ni psychotrope : elle était algorithmique.

Certains des résultats les plus fous provenaient de l’interprétation par le réseau d’une image toute simple d’un ciel bleu avec des nuages.

Jusqu’ici, Mordvintsev avait refusé de partager ses résultats à qui que ce soit. Il avait donné une conférence à propos de ses théories plus tôt dans l’année et avait été remarqué par quelques scientifiques du domaine de la recherche chez Google, mais cette fois, il se sentait suffisamment sûr de lui pour publier des images issues de ses expériences, dont celle du chien métastasé, sur la version interne de Google Plus, uniquement accessible à ceux qui travaillent pour Google. À 2 h 32 du matin, il a posté : « Pas sûr que c’était une bonne idée d’essayer d’améliorer une image issue d’un réseau neuronal numérique à 2 h du mat’. Comment je dors, moi, maintenant ? » Il était encore très tôt à Zurich, mais c’était la fin d’après-midi à Mountain View – le soleil ne se couche jamais sur les centres de recherche de Google. La première réponse est apparue quelques secondes seulement après le message de Mordvintsev, suivie d’une avalanche de réponses et de +1.

Inception

La publication de Mordvintsev a provoqué l’animation dans la communauté Google et a reçu 162 +1 et plus de 60 commentaires, un nombre assez inhabituel pour un message venu d’un ingénieur lambda de l’équipe Safe Search. Parmi eux, deux ingénieurs étaient particulièrement captivés par l’expérience de Mordvintsev. Le premier était un stagiaire qui travaillait sur le deep learning avec l’équipe de choc menée par Jeff Dean. Il s’appelait Chris Olah, avait 22 ans et était en stage ici après avoir bénéficié d’une bourse de deux ans grâce à un programme appelé 20 Under 20 (« 20 moins de 20 ans »), financé par l’entrepreneur Peter Thiel, qui paie 100 000 dollars de jeunes étudiants brillants pour qu’ils quittent l’école et conçoivent des choses à la place. En plus de son goût prononcé pour l’impression 3D et le célèbre langage de programmation Haskell, Olah était obsédé par les réseaux neuronaux et était donc, assez naturellement, intrigué par la conférence donnée par Mordvintsev – et soufflé par son post nocturne. « Je m’intéressais beaucoup à ces réseaux neuronaux convolutionnels et à ce qu’on savait de leur fonctionnement », m’a-t-il confié. Après avoir vu la publication de Mordvintsev sur Google Plus, Olah a reçu l’accord de ses supérieurs pour collaborer à ce projet. Le travail d’interprétation de la manière dont les réseaux neuronaux parvenaient à visualiser les objets qu’Olah avait déjà mené s’est révélé indispensable pour explorer les découvertes de Mordvintsev.

Une autre folie psychédélique de Deep Dream

Autour de Mordvintsev est venu se greffer l’ingénieur logiciel Michael Tyka. Biochimiste de formation, Mike s’est plutôt dirigé vers l’informatique afin de se concentrer sur la simulation du repliement des protéines. Il travaillait alors avec l’équipe de Google basée à Seattle consacrée au deep learning. Il est également artiste et fabrique des sculptures inspirées du travail de repliement des protéines. Par ailleurs, il a fait partie d’un groupe d’artistes qui ont construit une sculpture en forme de Rubik’s Cube de près de 11 mètres de haut… Récemment pris de passion pour les réseaux neuronaux lui aussi, Tyka a perçu la publication de Mordvintsev autant comme une œuvre d’art que comme un objet de science. « Si on étudie le cas de la créativité humaine, on peut voir qu’une petite partie de celle-ci réside dans la capacité à s’accaparer des impressions et à les retranscrire de manière intéressante et inattendue », dit-il. « Il est passionnant de voir que les ordinateurs peuvent nous sortir des trucs inattendus que même les humains n’ont jamais produits. » Tyka a commencé l’expérience en abreuvant le système de plusieurs images différentes et en revenant constamment au début du processus, à la manière de Mordvinsev. Il a produit une galerie d’images sur lesquelles le réseau neuronal avait modifié chaque pixel, qui correspondait au début d’une autre image. Des montagnes sont devenues des pagodes, des feuilles se sont transformées en oiseaux et même les arrières-plans ont formé des dessins intriqués les uns dans les autres, comme si les démons intérieurs du réseau avaient été à l’école de l’architecture géométrique de l’Islam antique.

Quelques uns des résultats les plus fous provenaient de l’interprétation par le réseau d’une image toute simple d’un ciel bleu avec des nuages. Étrangement, le réseau neuronal montrait des scènes magiques, un peu comme quand les enfants imaginent des animaux et des objets à partir des nuages – sauf que ces visions ne se réduisaient pas aux nuages mais apparaissaient également dans le ciel pourtant uni. À partir de motifs indétectables pour un homme, le réseau a produit des espèces au-delà de toute taxonomie. Chris Olah les a appelées Cochon-Escargot, Poisson-Chameau ou encore Chien-Oiseau.

Christopher Olah

Après ça, Tyka a franchi une étape de plus dans l’expérimentation : au lieu de commencer par une image existante, il lançait le processus avec un bruit généré aléatoirement, et il s’est évertué à réalimenter le système jusqu’à ce qu’il remplisse les motifs émergents qu’il reconnaissait en objets réels et en tapisseries élaborées. « En faisant ça pendant quelques temps, tu perds nécessairement la mémoire de la photo initiale, de toute façon », explique-t-il. « Donc en commençant avec du bruit généré aléatoirement, ton image est entièrement générée grâce aux seules connaissances du réseau. » Plutôt que de suivre des motifs qui recréent vaguement un objet-cible indiqué et le font apparaître, ces réseaux neuronaux étaient en pleine impro. Il a fallu peu de temps à Tyka pour qu’il obtienne de merveilleux résultats grâce à ces bruits pris au hasard et utilisés comme base de recherche. Le réseau a dessiné des paysages imaginaires incroyables, comme si Red Grooms et Robert Crumb se chargeaient d’illustrer les classiques de la série Le Magicien d’Oz, de Frank Baum. Bien sûr, nous savons tous que les réseaux neuronaux artificiels sont des programmes informatiques et n’ont pas à proprement parler d’ « esprit ». Pourtant, on ne pouvait pas s’empêcher de penser que ces résultats nous offraient une sorte de fenêtre vers le subconscient de ces réseaux.

De manière plus terre-à-terre, ces réalisations faisaient progresser Mordvintsev dans sa quête d’une meilleure compréhension de la manière dont fonctionnent les réseaux neuronaux. À mesure que ses nouveaux collaborateurs et lui généraient plus d’images et conduisaient plus d’expériences, ils commençaient à avoir une meilleure idée de la façon dont les réseaux neuronaux interprétaient notre monde. Chris Olah a trouvé quelque chose de particulièrement intéressant : quand ils ont demandé au réseau de produire des images d’haltères, ils ont découvert une chose étrange. Auparavant, les chercheurs considéraient que lorsqu’un réseau neuronal reconnaissait un haltère, il « voyait » l’objet comme un être humain le voyait – c’est-à-dire un petit objet métallique. Eh bien, ils avaient tort. Dans l’ « esprit » d’un réseau neuronal, un haltère était nécessairement un objet sur lequel étaient attachés une main et un poignet humains. Image après image, le résultat qui s’esquissait montrait un poing et un poignet agrippant l’haltère. Ce type de données serait utiles dans l’apprentissage des réseaux neuronaux futurs. Alors que les travaux de Mordvintsev attiraient de plus en plus l’attention chez Google, les responsables du groupe de recherche ont décidé que le projet devait être rendu public. Mordvintsev a suggéré à Olah, qui était lui-même un blogueur très actif, de collaborer sur un post de blog pour inciter au débat public. « Le meilleur moyen de partager de tels résultats était probablement de prolonger encore davantage notre expérimentation, puis d’écrire un article scientifique et de le rendre public dans quelques conférences », raconte Mordvintsev. « Mais je me suis dit qu’un billet de blog aurait plus d’impact car c’est plus rapide et que ça permet de partager les choses beaucoup plus facilement. » Tyka s’est joint à lui, d’abord en l’aidant à écrire le texte du billet, puis en y reproduisant une partie de ses propres expériences.

Michael Tyka

Dans leur post, l’équipe a baptisé leur méthode « Inceptionisme », un hommage à un ancien article de chercheurs de chez Google à propos des ConvNets, qui avaient baptisé leur système d’après le film de Christopher Nolan. Ils ont décrit comment leur système fonctionnait en prenant l’exemple d’une des transformations réalisées par Tyka, qui proposait un ciel criblé de nuages laissant apparaître une ménagerie effrayante. « Ce processus joue sur une boucle rétroactive : si un nuage ressemble un peu à un oiseau, le réseau le fera ressembler encore plus à un oiseau. À force d’allers-retours, ce mécanisme fait que le réseau reconnaîtra toujours plus fortement un oiseau et ainsi de suite, jusqu’à ce qu’un oiseau très détaillé apparaisse, comme sorti de nulle part. » Le trio a publié le billet sur le blog de recherche de Google le 17 juin et tout Internet est devenu dingue. En quelques jours, leurs images sont apparues dans plus de 100 articles et dans d’innombrables tweets et posts Facebook. Des subreddits, des billets de blogs et des forums consacrés au deep learning ont analysé chaque aspect de leur publication.

Pendant plusieurs années, les termes réseaux neuronaux et deep learning avaient été évoqués à tout va, laissant de marbre les non-scientifiques. À présent, il existait des images qui, représentatives ou non, incarnaient un point d’entrée vers ces concepts compliqués. C’était un peu comme si l’intelligence artificielle peignait son autoportrait. Mais ce n’était qu’un début. Le 1^er juillet, Google a publié sur GitHub les commandes de code qui permettaient à chacun de réaliser ses propres images. Dans ce laps de temps, les chercheurs de Google qui étaient à l’origine du programme Inception ont suggéré que ces nouveaux réseaux ne devraient pas porter le même nom pour éviter d’embrouiller les gens. Cette nouvelle méthode a donc été appelée Deep Dream, un mot-valise qui évoquait à la fois le deep learning des réseaux neuronaux et la dimension onirique et surréaliste des résultats obtenus. C’est là qu’Internet est vraiment devenu dingue. De nombreuses applications ont surgi de nulle part pour permettre aux gens ordinaires de transformer leurs amoureux en créations cauchemardesques. Beaucoup de gens ont fait l’expérience de transformations aussi farfelues que la série de nuages générée par Tyka, mais le truc le plus populaire sur les applis était d’utiliser Deep Dream pour illustrer le manga Beelzebub. Des forums consacrés à l’intelligence artificielle, des tweets avec le hashtag #deepdream et des images sorties du réseau Pinterest proposaient des bestiaires de visions par ordinateur dignes des toiles de Jérôme Bosch. Un des passe-temps favoris des internautes consistait à passer dans le système Deep Dream les candidats à l’élection présidentielle américaine – particulièrement Trump – en les montrant comme s’ils sortaient tout droit de pages perdues des épreuves du roman graphique Las Vegas Parano, de Ralph Steadman. Le groupe de rock Wilco a réalisé une image de chaton passée au Deep Dream qu’ils ont utilisé comme couverture d’album, vendu sur leur site pour 20 dollars. Et bien évidemment, certains se sont amusés à passer des images pornographiques au traitement Deep Dream, obtenant des résultats aussi incroyablement effroyables qu’on peut l’imaginer (les liens vers ces horreurs sont accessibles uniquement sur demande). Un grand titre de Gizmodo a résumé le phénomène : « La machine à rêve de Google sauvagement lâchée sur Internet ».

« Dans cinq ans, Photoshop ne parlera plus à personne. » — Samin Winiger

Une communauté Deep Dream florissante a émergé. Samin Winiger, un des plus acharnés du programme, était un développeur suisse de jeux vidéo qui commençait à devenir célèbre, notamment pour son ancienne carrière de producteur de musique connu pour utiliser de la technologie de pointe. « Ce sont les premières images générées par une machine qui entrent dans la culture pop depuis les fractales », m’a-t-il expliqué au cours d’une conversation par Skype. Il a apporté sa propre contribution en développant, en collaboration avec Roelof Pieters, un programme qui pouvait créer des animations à partir d’un logiciel de Deep Dream. Les deux compères ont récemment utilisé leur création pour réaliser le clip d’une chanson du groupe electropop Years and Years. « Dans cinq ans, Photoshop ne parlera plus à personne », affirme Winiger. À la place, les artistes et les illustrateurs utiliseront une « boîte à outils » pour générer des images supérieures à la résolution humaine. Il appelle ça l’ « intelligence artificielle créative ».

L’haltère

Mais la signification de Deep Dream va bien au-delà de la question de l’art. Pour comprendre pourquoi l’expérience de Mordvintsev importe de façon plus globale, il faut vous y connaître un minimum en matière de réseau neuronal artificiel et de deep learning. Commençons par décrire les réseaux de neurones. Il s’agit de neurones artificiels répartis sur une pile de couches : les réseaux les plus « profonds » peuvent compter 30 couches. Dans les systèmes de vision numérique, les chercheurs entraînent les réseaux neuronaux en leur donnant des images à interpréter et en classant les résultats. Tandis que ces images passent à travers le réseau, chaque couche l’analyse un peu plus, concoctant une impression globale de ce qu’elle voit. Après de multiples passages de l’image à travers le réseau, et en prenant en compte les retours sur l’exactitude de son interprétation, le réseau ajuste de lui-même ses paramètres afin de pouvoir correctement classer des objets variés. Jusqu’à ce que la couche finale, qu’on appelle couche « de sortie », puisse déterminer habilement les objets qu’il a appris à reconnaître. Grâce aux améliorations de ce champ de recherche au cours des dernières décennies, les réseaux neuronaux sont passés du grenier de la recherche au secteur le plus porteur en matière d’intelligence artificielle. Les réseaux neuronaux artificiels à deep learning (« compréhension profonde ») reconnaissent aujourd’hui aisément des images et interprètent le langage naturel avec tant d’exactitude qu’ils sont en train d’automatiser des métiers que seuls les êtres humains pouvaient auparavant exercer. Mais il nous reste encore beaucoup à apprendre des réseaux neuronaux artificiels malgré tout. Jusqu’ici, le travail s’est focalisé sur les résultats, et ce qu’il se trame réellement lorsqu’un réseau neuronal commence ses ajustements de paramètres auto-déterminés demeure un mystère.

New York sous acides

Il est donc difficile de dire ce qu’il se passe à l’intérieur d’un réseau neuronal efficace, et plus difficile encore de comprendre dans quelle mesure ils fonctionnent comme de véritables cerveaux et dans quelle mesure ce n’est pas le cas. Mais à présent que nous avons la certitude qu’ils fonctionnent bel et bien, il nous faut comprendre comment, pour pouvoir améliorer la prochaine génération. C’est là toute l’utilité du processus Deep Dream. Par exemple, dans l’une des différentes expériences, les chercheurs vont choisir quelle couche du réseau va être active pour améliorer les motifs qu’elle a détectés sur une photographie donnée. S’ils choisissent l’une des couches les plus basses – celles qui émettent les premières hypothèses du système à l’égard de ce qu’une image contient –, ils vont obtenir des motifs compliqués, car à ce moment-là le réseau est en train d’analyser les contours des objets et ne s’occupe pas encore de les classer. Une autre expérience réalisée exploite les couches les plus hautes, encourageant le système à improviser à partir de ce qu’il a commencé à reconnaître. C’est là que les animaux bizarres apparaissent. En plus de ce résultat fascinant, nous en avons appris davantage sur la façon dont fonctionnent les réseaux neuronaux. Mais l’expérience de Mordvintsev est importante à un autre titre : elle souligne le vaste potentiel des réseaux de neurones artificiels.

À mesure que ces réseaux se développent, ils se destinent non seulement à égaler les aptitudes humaines dans certains domaines, mais aussi à les dépasser. Les réseaux neuronaux convolutionnels, par exemple, semblent avoir le potentiel d’être plus perspicaces que les gens par certains côtés. Comme le montre l’expérience Deep Dream, les réseaux neuronaux peuvent voir des choses que nous ne voyons pas. Et on ne parle pas seulement ici de chiens enragés qui apparaissent dans la nuque de quelqu’un, mais de phénomènes indétectables autrement qui présentent un réel intérêt pour nous. Par exemple, les scientifiques commencent à utiliser les réseaux neuronaux pour détecter le cancer lors d’échographies. Ils peuvent aussi lui faire analyser des données pour obtenir des prédictions relatives à la circulation. Dans le futur, les réseaux neuronaux seront utilisés pour améliorer, et dans certains cas remplacer l’être humain, dont la bande passante limitée peine à accomplir certaines taches. Prenez par exemple l’agent de sécurité d’un aéroport, qui contrôle sur un écran les passagers d’un vol. En plus d’éliminer les faiblesses humaines comme la fatigue ou la distraction, un réseau neuronal pourrait évoluer de telle façon qu’il puisse reconnaître des motifs subtils dans les objets rangés dans les bagages, ou même dans le comportement des passagers, et ainsi égaler (voire surclasser) les interrogations pénibles des agents d’El Al Airlines. 🙂 Il s’agit ici d’implications utilitaires, mais il existe aussi des implications philosophiques. Scruter à la loupe les réseaux de neurones artificiels est un moyen unique d’explorer une façon alternative de percevoir la réalité. Tandis que les ConvNets sont conçus pour imiter un processus biologique, nous savons bien que ce qu’il se passe en réalité dans ces systèmes informatiques est très différent du fonctionnement de nos cerveaux. Prenez l’exemple cité plus tôt par Chris Olah, la façon dont les réseaux neuronaux voient les haltères comme des objets auxquels sont attachés des mains humaines. D’un certain point de vue, cette erreur d’interprétation peut sembler sans importance. Il paraît évident que face à un flot ininterrompu d’images d’haltérophiles, une machine peut être amenée à croire que la main humaine autour de l’haltère fait partie de l’haltère. Mais c’est également une porte ouverte sur une intelligence non-humaine – et peut-être même un reproche adressé à la façon dont nous voyons les haltères. Je ne voudrais pas paraître trop kantien, mais serait-ce qu’un haltère n’est pas un haltère tant qu’une main humaine ne s’en est pas saisi ?

Pikazo

Peut-être que la question la plus déroutante de toutes n’est pas celle des différences qui existent entre les réseaux neuronaux artificiels et nos propres cerveaux, mais celle de leurs similarités. Nos instincts nous disent que ces créations informatiques ne peuvent aller jusqu’à reproduire les expressions les plus complexes de l’humanité. Et voilà qu’une autre expérience de réseau neuronal hors de Google vient défier cette perception : un réseau neuronal artificiel qui, sur commande, altère une photographie comme si l’un des plus grands artistes de l’histoire l’avait créée. Il vient d’un trio de chercheurs basés à l’université de Tubingen, en Allemagne. Leon Gatys, doctorant allemand au Bethge Lab de l’université de Tubingen, travaillait avec une équipe entraînée au calcul et à la neuroscience pour tenter de comprendre les systèmes visuels biologique et informatique. Ils utilisaient des réseaux neuronaux pour identifier et finalement produire des textures plutôt que des objets, quand leur expérience a pris un tour étrange – était-il possible de pousser un réseau neuronal à transformer des images de façon créative, à la manière d’un artiste iconique ? Un réseau neuronal pouvait-il comprendre une peinture avec les mêmes facultés analytiques qu’un historien de l’art ? Pouvait-il agir comme un maître forgeron, transformant la scène d’une photographie en un résultat qu’on dirait tracé par le pinceau d’un peintre célèbre ? Pour y parvenir, ils devaient apprendre au réseau neuronal à distinguer le style du contenu, puis à identifier si bien le style que le réseau pourrait reproduire une scène photographique dans ce style.

Steven Levy par Pikazo

« Il n’était absolument pas évident qu’il y aurait tous ces facteurs de variation », dit Gatys. Mais après avoir appris à un réseau neuronal à différencier des objets dans des toiles célèbres et des photographies de ces mêmes objets non affectés par l’imagination artistique, ils ont été miraculeusement capables de produire des images originales, qui avaient l’air d’avoir été retrouvées dans les ateliers de maîtres depuis longtemps disparus. Dans leur article, intitulé « Un algorithme neuronal de style artistique », ils font la démonstration, en extrayant le style de peintures très connues comme Le Cri de Munch, Composition VII de Kandinsky, ou La Nuit étoilée de Van Gogh, avant d’entrer des photographies qui ressemblent lointainement au sujet des peintures dans leur système. Les résultats ressemblent étrangement aux peintures. L’article a été publié sur le Web en septembre de l’année dernière. Lorsqu’une version open source du logiciel est apparue, peu de temps après, une communauté de graphistes déjà accro à Deep Dream s’est vautrée dans une nouvelle orgie de création. L’un des participants était Karl Stiefvater, un spécialiste du graphisme informatique (il a écrit le code qui a fait exploser le vaisseau de Neo dans la trilogie Matrix ; et plus récemment il a conçu des outils graphiques essentiels pour Linden Lab). Son application iOS, Pikazo, propose des styles inspirés de sources non humaines : par exemple, l’une des options est d’apposer un style de circuit imprimé à une image. La transformation n’est pas instantanée, car « elle demande des opérations à quatre quadrillions de virgules flottantes », explique Stiefvater. Le succès de l’expérience allemande – et l’aisance avec laquelle l’application de Stiefvater peut transformer vos photos de famille en chefs-d’œuvres de Klimt – pose de grandes questions. Nous avons la preuve incontestable que des chercheurs allemands ont construit un cerveau artificiel qui peut « peindre » dans le style unique d’artistes comme Kandinsky. Non, les réseaux de neurones artificiels ne sont pas des cerveaux. Mais ils apprennent tout comme des cerveaux et voient les choses d’une manière quelque peu similaire. Peut-on alors apprendre quoi que ce soit du cerveau de Kandinsky en étudiant ces réseaux ? « C’est une question très difficile », répond Gatys. « Nous manipulons la représentation picturale. Mais il n’y a pas d’agent intelligent en jeu. Il est très difficile de comprendre ce que l’individu Kandinsky avait en tête, ce qui l’a fait peindre ces images. » Stiefvater, de Pikazo, est d’avis que résoudre l’énigme que posent les formes les plus radicales de génie est en définitive un problème mathématique. « J’aime la créativité artistique, mais je ne suis pas de ceux qui croient que la création est surnaturelle », dit-il. « C’est un mécanisme, des rouages de pendule. »

Le trio

Du moment où Mordvintsev et ses collègues ont publié sur le blog de recherche, un aspect en particulier a frappé les gens immédiatement et soulevé des questions à propos des similitudes potentiellement vastes entre les réseaux neuronaux artificiel et biologique. C’était la corrélation étrange entre les images de Deep Dream et les hallucinations humaines provoquées par une forte dose de LSD ou de champignons hallucinogènes. (Ou bien l’esprit d’Hunter S. Thompson sous son régime normal de drogues en tout genre.) Les mêmes facteurs étaient-ils à l’œuvre dans les réseaux neuronaux de Deep Dream et les cerveaux gorgés d’acides ? Certains chercheurs l’ont pensé. « Les images de Google ressemblent beaucoup à ce que vous pourriez voir en prenant des drogues psychédéliques ou pendant des hallucinations, et c’est parfaitement logique », a confié Karl Friston, professeur de neuroscience à l’University College London, à la reporter Sophie Weiner. Google, vous l’imaginez bien, se serait bien passé de l’analogie avec les drogues. De manière générale, tout en soutenant véritablement le projet, la firme a semblé se démener pour que la hype reste dans le contexte, car il y a des tonnes d’avancées en matière d’IA plus fonctionnelles chez eux qui n’ont pas donné lieu à des images qui ont cassé Internet. (Un chercheur éminent extérieur à la compagnie décrit la travail de Deep Dream comme un « joli coup ».) Il m’a fallu des semaines pour persuader la compagnie de me laisser interviewer l’équipe. Bien sûr, quand j’en ai eu l’occasion, je leur ai demandé pourquoi les images de Deep Dream semblaient tellement psychés. Ils n’ont pas esquivé les implications. « Il y a une connexion profonde entre la façon dont notre réseau visuel marche et la façon dont fonctionne notre cerveau », explique Tyka. « C’est pourquoi je n’ai pas été surpris de trouver que des choses similaires pouvaient se produire dans des cerveaux biologiques. C’est-à-dire que si vous injectez des stimulants visuels dans des systèmes biologiques et que vous foutez le boxon dans les signaux synaptiques et les neurones, vous allez forcément avoir des sur-interprétations et des distorsions bizarres. Je pense donc qu’il y a une analogie ici. Et vous pourriez même penser que la recherche dans le domaine des réseaux de neurones artificiels pourrait bien nous aider à mieux comprendre les réseaux biologiques. »

L’expérience a changé la vie du trio qui a posté la trouvaille originale.

Mordvintsev est d’accord. « Pour moi, c’est aussi le signe fort que nous allons dans la bonne direction pour créer un système de vision informatique constructif en utilisant des réseaux neuronaux convolutionnels. Car ils semblent avoir des imperfections en commun. » C’est un concept ahurissant en lui-même. Se peut-il que les gens qui hallucinent et les réseaux neuronaux de Deep Dream font l’expérience de visions basées sur les mêmes signaux visuels ? Les deux systèmes ont-ils grand ouvert les mêmes portes de la perception ? Combien ces réseaux peuvent-ils nous apprendre de nous-mêmes ? Soulever des questions comme celle-ci, voilà pourquoi Deep Dream – même si certains le balaient d’un revers de main en le taxant de « joli coup » – est si important. La viralité extraordinaire de ces images est un premier pas vers un examen plus profond des problèmes que nous pourrions rencontrer tandis que les réseaux neuronaux et le deep learning s’entrelacent plus étroitement avec nos vies.

~

Qu’importe ce qui ressort du phénomène Deep Dream, l’expérience a changé la vie du trio qui a posté la trouvaille originale. Alex Mordvintsev ne travaille plus à Safe Search, il fait maintenant partie d’une équipe de recherche sur l’apprentissage des machines chez Google, à Seattle. Maintenant que son stage est fini, Chris Olah est désormais un employé de Google à plein temps, dans l’équipe de recherche sur l’IA. Mike Tyka passe aujourd’hui une partie de son temps à explorer la façon dont les artistes peuvent utiliser les machines pour créer de l’art. Au moment où je les ai interviewés, quelques mois après leur post de blog, le trio ne s’était jamais rencontré en personne – seul Olah était dans la pièce avec moi, les autres participaient à distance via Hangout. J’ai donc pris une photo d’Olah, qui se trouvait dans la salle de conférence de Google avec moi, entre deux larges écrans sur lesquels on peut voir respectivement, Mordvintsev à Zurich et Tyka à Seattle. Plus tard, je me suis demandé comment un réseau neuronal pourrait interpréter cette photo de groupe. Selon les paramètres, il peut identifier précisément les trois hommes par leur nom, et supposer correctement que la photo a été prise dans une salle de conférence du campus de Google. En fait, Google Photos, un produit sorti quelques jours seulement avant la trouvaille de Mordvintsev, utilise habilement des techniques de deep learning pour se charger de taches comme celles-ci, plusieurs milliers de fois par jour. Mais peut-être que si l’on stimulait les bons neurones artificiels, alors les machines regarderaient l’image jusqu’à ce que des têtes de chiens méchants tordues jaillissent des manches des ingénieurs, de leurs cols et de leurs oreilles. Qui peut dire quelle vision est la plus réelle ?

Traduit de l’anglais par Kevin Poireault et Nicolas Prouillac d’après l’article « Inside Deep Dreams: How Google Made Its Computers Go Crazy », paru dans Backchannel. Couverture : La Joconde vue par Deep Dream.

Au cœur de Deep Dream : comment Google a rendu fous ses ordinateurs

Nuit blanche

Inception

L’haltère

Pikazo

Le trio

~

Vous aimerez sûrement

Entretien avec l’astronome d’Harvard qui se prépare à rencontrer les extraterrestres

Le Top 100 des faits divers les plus fous de 2019

Opération de récupération dans les eaux furieuses du Mékong

Monrovia au temps d’Ebola