Chaque mois, des milliers d’articles publiés dans le monde sont écrits par des robots. Et si l’intelligence artificielle pouvait rendre les journalistes meilleurs ? (Partie 1)

Depuis quelque temps, les agences de presse telles qu’Associated Press, Reuters et bien d’autres diffusent chaque mois des milliers de news écrites par des robots. C’est une évolution certes alarmante, mais ces robots ne font pour le moment que remplir des phrases types avec des chiffres émanant de rapports annuels ou de comptes de résultats. Il y a de bonnes raisons de penser que cette forme de journalisme entièrement automatisé restera limitée pendant longtemps encore.

siriPendant ce temps, paisiblement et sans faire de tapage – contrairement à leurs cousins robots –, les cyborgs font leur entrée dans le journalisme. Et ils vont gagner la bataille, car ils sont capables de choses que ni les êtres humains, ni les programmes informatiques ne peuvent accomplir seuls.

Siri, l’assistant intelligent d’Apple, sait planifier des rendez-vous ; Alexa, d’Amazon, est capable de recommander de la musique ; et Watson, d’IBM, excelle à répondre aux questions de Jeopardy. Imaginons qu’une intelligence artificielle se mette au journalisme, comme un assistant personnel intelligent capable d’étendre notre capacité d’action. Elle devra pouvoir analyser des quantités surhumaines de données, répondre aux informations de dernière minute aussi vite que l’éclair, et il faudra qu’elle soit capable d’écrire non pas la dernière version d’un article, mais la première. En bref, une telle technologie pour les épauler produirait à terme de meilleurs journalistes, plus rapides et plus intelligents.

Appelons-là Izzy, en hommage au journaliste d’investigation Isador Feinstein Stone, qui a déterré de nombreux scandales enfouis dans les dossiers du gouvernement américain en son temps. Nous sommes déjà en mesure de concevoir Izzy aujourd’hui. Cette technologie utiliserait la reconnaissance vocale pour accomplir un vaste éventail de pratiques journalistiques modernes. Les ordinateurs veillent déjà sur les médias sociaux à la recherche des dernières informations, avec une rapidité qu’aucun être humain ne peut égaler. Ils scannent les données et les documents afin d’établir des liens, pour les besoins de projets d’investigation complexes. Ils suivent la propagation des rumeurs, vérifient l’exactitude des chiffres énoncés, et sont capables de créer instantanément de courtes vidéos à partir de scripts, ne demandant qu’à être peaufinées par le journaliste.

ulyces-journalismcyborg-01
Isador Feinstein Stone, alias Izzy

News Tracer

« C’est une course de vitesse, car les marchés financiers sont à la recherche de ce genre d’outils », déclare Reg Chua, responsable du département Données et innovation chez Reuters. L’agence de presse a produit ses premiers articles automatisés en 2001, en publiant des titres générés automatiquement à partir du rapport hebdomadaire de l’American Petroleum Institute. Ce rapport, qui contient les chiffres clés de la production pétrolière, est étroitement surveillé par les traders des marchés de l’énergie, qui ont besoin des dernières informations le plus rapidement possible – et bien entendu avant leurs concurrents. L’automatisation devient une évidence lorsque chaque seconde compte. Aujourd’hui, les agences de presse du monde entier diffusent environ 8 000 articles automatisés par jour, en plusieurs langues et sur n’importe quel sujet.

Les systèmes automatisés peuvent signaler un chiffre, mais ne sont pas encore capables de dire ce qu’il signifie. Les articles générés par ordinateur ne proposent aucun contexte, aucune analyse tendancielle, ils ne sont pas en mesure de relever les irrégularités ni de sonder les différentes forces en présence. La technologie la plus récente de Reuters va plus loin, mais avec une aide humaine : elle écrit toujours des mots, mais elle n’est pas destinée à publier des articles de son propre chef. Ce système « d’informations automatiques », actuellement en cours de développement, résume les données financières pertinentes et alerte les journalistes. Au lieu de fournir ce que Chua appelle « les chiffres des gros titres (l’indice était à tel niveau, plus haut ou plus bas qu’à la clôture d’hier) », la machine fait ressortir « des analyses plus sophistiquées comme, par exemple, la plus forte augmentation depuis tant de temps – ce genre de choses ».

Ce système pourrait rechercher des changements dans la notation des analystes, relever des performances exceptionnellement bonnes ou mauvaises par rapport à d’autres sociétés de la même industrie, ou regarder si des acteurs clés du secteur ont récemment vendu des actions. Plutôt que d’être un simple générateur de phrases, il est censé « signaler aux journalistes des éléments qui pourraient présenter un intérêt pour eux », dit Chua. « Éléments qu’il présente sous la forme plus avantageuse d’une phrase. »

ulyces-journalismcyborg-02Mais toutes les informations ne proviennent pas uniquement des flux de données financières. C’est pourquoi le système d’automation le plus sophistiqué de Reuters repère les données en analysant les médias sociaux. Leurs tests ayant démontré qu’environ 10 ou 20 % des informations sont d’abord diffusées sur Twitter, l’entreprise a décidé de surveiller activement la plateforme. Toute entière.

Fin 2014, Reuters a lancé un projet baptisé News Tracer. Le système analyse chaque tweet en temps réel – soit 500 millions de tweets quotidiens. Tout d’abord, il filtre le spam et la publicité. Ensuite, il rassemble les tweets traitant du même sujet et attribue à ce groupe un mot-clé tel que « business », « politique » ou « sports ». Enfin, il utilise des techniques de traitement du langage pour générer un résumé clair de chaque groupe.

Il y a déjà eu des systèmes de surveillance des médias sociaux, principalement mis en place pour les professionnels du marketing et de la finance. DataMinr, une plateforme commerciale puissante qui analyse également chaque tweet, est un concurrent de l’outil interne de Reuters – une bonne nouvelle pour les journalistes qui ne travaillent pas chez eux. Mais News Tracer a été intégralement pensé et créé pour les journalistes, et ce qui le distingue le plus est peut-être son évaluation de l’ « exactitude » et de la « pertinence » qu’il attribue à chaque groupe.

Les pratiques ayant cours au sein des rédactions sont généralement trop informelles pour pouvoir être codifiées. De combien de sources indépendantes ont besoin les journalistes avant d’être disposés à écrire un article ? Quelles sont les sources dignes de confiance ? Pour quel type d’article ? « Ce qui est intéressant quand on commence à passer aux machines, c’est qu’on doit se mettre à codifier tout ça », dit Chua. Un peu comme lorsqu’il s’agit de programmer l’éthique d’une voiture sans conducteur, l’exercice consiste à transformer des jugements implicites en instructions claires.

ulyces-journalismcyborg-03
Reginald Chua
Crédits : University of Hong Kong

News Tracer attribue une cote de crédibilité, basée sur des critères qu’un humain prendrait en considération : localisation et identité de l’émetteur, certification de l’utilisateur, façon dont le tweet se propage sur le réseau social et confirmation/invalidation de l’information par d’autres utilisateurs. Plus important encore, Tracer confronte les tweets à une « base de connaissances » de sources fiables interne. Ici, intelligences humaine et algorithmique travaillent de concert : les journalistes sélectionnent soigneusement des comptes sources fiables et l’ordinateur analyse quels autres comptes suivent et retweetent ces premiers, afin de déterminer s’ils sont eux aussi dignes de confiance.

« Mettons qu’une bombe éclate quelque part et que le compte certifié de la police locale le rapporte, ou le bureau du maire, ou celui de la Maison-Blanche… », explique Chua. En obtenant ces informations, Reuters a le feu vert pour écrire un article et un journaliste doit en être informé.

News Tracer doit également décider si un groupe de tweets est une « information » ou simplement un sujet populaire. Pour bâtir leur système, les ingénieurs de Reuters ont sélectionné plusieurs groupes de tweets et vérifié si la rédaction avait effectivement écrit un article sur chacun de ces événements – ou si les journalistes auraient écrit un article sur le sujet s’ils en avaient été informés. Ils ont ainsi recueilli un corpus d’événements dignes d’intérêt. Les ingénieurs ont également surveillé les comptes Twitter de journalistes respectés de la profession, et d’autres comme @BreakingNews, qui tweete très en avance des alertes sur des événements vérifiés. Toutes ces données ont été utilisées pour apprendre à la machine à comprendre ce qu’était une information pertinente. Reuters a en quelque sorte montré à News Tracer ce que les journalistes voulaient voir.

« Le problème, c’est le problème. »

— Michael Sedlmair

Les résultats obtenus jusqu’à présent sont impressionnants. Tracer a signalé le bombardement d’hôpitaux à Alep et les attentats terroristes de Nice et Bruxelles bien avant que d’autres médias ne le fassent. Chua estime que l’outil a permis à chaque fois au journaliste de Reuters de commencer son reportage de 8 à 60 minutes plus tôt que ses concurrents, une avance non négligeable. Pour Chua, l’importance de Tracer ne réside pas uniquement dans ce que la machine est capable de faire, mais dans ce qu’elle permet aux journalistes de faire pendant ce temps libéré : « Parler aux gens, poser des questions qui n’ont pas déjà été posées, faire des analogies que les machines ne savent pas faire aussi bien, etc. »

Coop

Il serait tentant de demander à notre hypothétique journaliste artificiel de travailler tout seul. « Izzy, enquête sur ces données », lui dirait-on. Mais il faudra beaucoup de temps avant qu’un ordinateur puisse écrire par lui-même autre chose qu’un article très basique.

En 2012, Michael Sedlmair, professeur adjoint du groupe de visualisation et d’analyse des données de l’université de Vienne, a co-publié un article dans lequel il explique pourquoi tant de choses sont si difficiles à faire pour les ordinateurs.

« Le problème, c’est le problème », dit Sedlmair. « Le postulat de base, dans les approches automatiques, c’est que le problème est bien défini. C’est-à-dire que nous savons exactement quelle est la tâche à effectuer et nous avons toutes les données nécessaires pour résoudre le problème. »

Sedlmair classe les problèmes sur un diagramme à deux axes. Sur le premier axe est indiqué le degré de clarté des tâches – à quel point le problème est bien défini. Acheter un billet de train, décider si un courrier électronique est du spam, vérifier si le nom d’une personne apparaît ou pas dans une base de données sont autant de problèmes clairs avec des solutions claires.

ulyces-journalismcyborg-04
Michael Sedlmair

Mais beaucoup de problèmes intéressants – dont la plupart de ceux posés par le journalisme – ne sont pas clairs du tout. Il n’y a pas de recette unique pour effectuer des recherches, suivre une intuition ou avoir une idée d’article en lisant des données. « Il n’existe pas de solution optimale à ces problèmes », résume Sedlmair.

Le second axe représente l’emplacement des informations nécessaires à la résolution du problème. Les développeurs supposent souvent que toutes les informations nécessaires sont déjà stockées dans l’ordinateur en tant que données, mais c’est rarement le cas dans le journalisme. « Pour remplir certaines tâches, les données doivent souvent être associées à des informations qui ne sont pas informatisées mais qui restent “enregistrées” dans la tête des gens », affirme Sedlmair.

Le Wall Street Journal a par exemple révélé que le PDG d’EMC Corporation utilisait régulièrement les jets de l’entreprise pour ses vacances personnelles. Cette information provient de l’analyse des éléments de vol de la FAA, mais les données ne deviennent un article que lorsqu’elles sont associées à des informations supplémentaires, comme la localisation des lieux de vacances du PDG et le fait qu’il n’est pas censé utiliser ces jets pour des voyages personnels. Cette information-là se trouvait dans la tête du journaliste, sans doute tirée d’entretiens ou de soirées passées à lire des documents confidentiels. Aucun algorithme ne pourra jamais proposer un tel article – et tous ceux qui pourraient en découler – à partir des seules données de la FAA, pour la simple et bonne raison que l’identification du modèle de vol suspect nécessite des informations qui ne figurent pas dans les données.

ulyces-journalismcyborg-05« Les solutions entièrement automatiques sont efficaces lorsque la tâche est claire et que nous avons toutes les informations nécessaires – ou du moins la plupart – dans l’ordinateur pour résoudre cette tâche », dit Sedlmair. Pour tout le reste – une bonne partie du métier de journaliste –, nous avons besoin d’une coopération homme-machine.

Au lieu de demander aux ordinateurs de faire le travail, les journalistes devront les rencontrer à mi-parcours et séquencer leur travail en tâches relativement concrètes et autonomes. Par chance, cela reste extrêmement utile.

IA anti-corruption

« Les méthodes employées par les criminels ne sont pas innombrables », dit Paul Radu, cofondateur de l’Organized Crime and Corruption Reporting Project, un collectif de journalistes roumain spécialisé dans le crime organisé et la corruption. Les techniques utilisées pour dissimuler de l’argent et des biens se propagent via des réseaux undergrounds et se reproduisent d’un pays à l’autre.

Basé à Sarajevo, l’OCCRP est aujourd’hui un consortium de plus de 150 journalistes travaillant dans une trentaine de pays. Ensemble, ils ont suivi, à travers l’Europe de l’Est et la Russie, la trace de milliards de dollars issus du blanchiment d’argent et de la corruption. Un jour, Radu s’est fait passer pour un acheteur d’esclaves afin d’infiltrer un groupe de trafic d’êtres humains. Mais ces derniers temps, l’OCCRP travaille presque uniquement sur des documents – publics pour la plupart – afin de retrouver des biens par-delà les frontières et les sociétés fictives dans les paradis fiscaux. Ce qui rend leur travail particulièrement adapté à l’assistance informatique.

L’OCCRP a déjà beaucoup investi dans des outils de gestion de documents et de collecte de données. Leur but est maintenant d’apprendre à un ordinateur à déceler les crimes à travers les données.

occrp_logoSupposons qu’un journaliste travaillant dans une ville découvre que l’administration locale délivre des permis de construire beaucoup plus rapidement à une entreprise en particulier, dans un délai de deux mois au lieu des neuf habituels. Après une enquête plus approfondie, le journaliste découvre un lien de parenté entre cette entreprise et un fonctionnaire, et écrit un article. L’étape suivante la plus logique est de rechercher si d’autres entreprises, peut-être situées dans d’autres villes, bénéficient elles aussi d’autorisations dans un délai inhabituellement court. Un journaliste pourrait également apprendre qu’une série de contrats a été accordée à des entreprises appartenant à des fonds panaméens, fusionnées quelques jours auparavant et toutes représentées par le même cabinet d’avocats. Il pourrait s’agir d’une stratégie mise en place à des fins fiscales pour masquer les véritables bénéfices. Cela justifierait que d’autres journalistes se lancent à la recherche de fournisseurs appartenant à des entreprises panaméennes récemment créées.

Le projet de l’OCCRP, Crime Pattern Recognition (« reconnaissance de schéma criminel »), n’en est qu’à ses balbutiements. Le concept est le suivant : les journalistes du réseau OCCRP doivent décrire à travers l’ensemble des données le cheminement qui les a amenés à l’écriture de leur article, ce que les développeurs ont pour mission de transformer en requêtes. Ces requêtes seront lancées en permanence sur les nouveaux documents publiés par les gouvernements ou obtenus par les journalistes de l’OCCRP à partir d’une grande variété de sources, y compris les fuites d’informations et les très nombreuses demandes adressées aux agences fédérales américaines sur la base du Freedom of Information Act.

« Il est vraiment très utile d’exploiter l’expérience des journalistes locaux », explique Radu, « car cela permettra à d’autres journalistes, assistés d’un ordinateur, de rechercher des infractions semblables. La machine a un rôle très important car elle peut signaler d’autres occurrences du même type de corruption. On sait alors qu’on devrait enquêter sur le sujet. J’ai bon espoir que les journalistes adhèrent à cette démarche. »

Radu souligne que ce système génère des pistes, pas des articles. « Il reste essentiel que l’enquêteur analyse, vérifie et mène véritablement l’enquête. »

paul_radu31
Paul Cristian Radu
Crédits : ICIJ

Friedrich Lindenberg, développeur pour l’OCCRP, pose les limites de cette technique d’analyse des données : « Si on disposait des données suffisantes pour comprendre l’économie mondiale, on pourrait simplement remplacer les journalistes par des machines qui reconnaîtraient puis trieraient les infractions sur une échelle de pertinence politique avant de rédiger l’article tout seuls. Mais le monde est encore opaque et exige du travail humain, de la créativité et du jugement pour établir des liens entre les personnes, les entreprises et les biens. »

Si l’OCCRP se porte bien, c’est notamment parce que l’organisme est méticuleux au sujet de la collecte des données. Si nous avons appris quelque chose au cours des vingt dernières années de recherche en IA, c’est bien que ce sont les données qui font la différence. La traduction automatique aurait été impossible sans une grande quantité de versions du même texte en plusieurs langues, et chaque voiture sans conducteur apprend de l’expérience de conduite de tous les autres véhicules autonomes. À mesure que les agences de presse se familiarisent à l’utilisation de sources de données volumineuses et diversifiées, des exploits auparavant impossibles, comme de trouver toutes les occurrences d’un même type d’escroquerie commis par les entreprises, deviendront aisément réalisables.

La plupart des organes de presse ne collectent et n’exploitent pas systématiquement leurs données. Des groupes comme l’OCCRP et le Consortium international des journalistes d’investigation sont des exceptions : ils connaissent la valeur des données et en amassent petit à petit de très grandes quantités pour servir le journalisme d’investigation transnational, comme l’enquête sur les Panama Papers. Les conditions liées à l’utilisation de ces données, qui proviennent de sources très variées, sont multiples. Il faut franchir bien des obstacles techniques, juridiques et éthiques importants avant de réussir à diffuser largement certaines de ces archives internes, mais même les données publiques en accès libre peuvent se révéler extrêmement utiles. En sachant comment les recueillir et les analyser, il est possible de réaliser des choses qui n’ont jamais été possibles avant.

LISEZ ICI LA SUITE DE L’HISTOIRE

COMMENT CONSTRUIRE UN
JOURNALISTE CYBORG

ulyces-journalismcyborg-couv


Traduit de l’anglais par Juliette Murray d’après l’article « The age of the cyborg », paru dans la  Columbia Journalism Review.

Couverture : Un journaliste et son robot. (DR/Ulyces)