par Jonathan Stray | 13 décembre 2016

Depuis quelque temps, les agences de presse telles qu’As­­so­­cia­­ted Press, Reuters et bien d’autres diffusent chaque mois des milliers de news écrites par des robots. C’est une évolu­­tion certes alar­­mante, mais ces robots ne font pour le moment que remplir des phrases types avec des chiffres émanant de rapports annuels ou de comptes de résul­­tats. Il y a de bonnes raisons de penser que cette forme de jour­­na­­lisme entiè­­re­­ment auto­­ma­­tisé restera limi­­tée pendant long­­temps encore. siriPendant ce temps, paisi­­ble­­ment et sans faire de tapage – contrai­­re­­ment à leurs cousins robots –, les cyborgs font leur entrée dans le jour­­na­­lisme. Et ils vont gagner la bataille, car ils sont capables de choses que ni les êtres humains, ni les programmes infor­­ma­­tiques ne peuvent accom­­plir seuls. Siri, l’as­­sis­­tant intel­­li­gent d’Apple, sait plani­­fier des rendez-vous ; Alexa, d’Ama­­zon, est capable de recom­­man­­der de la musique ; et Watson, d’IBM, excelle à répondre aux ques­­tions de Jeopardy. Imagi­­nons qu’une intel­­li­­gence arti­­fi­­cielle se mette au jour­­na­­lisme, comme un assis­­tant person­­nel intel­­li­gent capable d’étendre notre capa­­cité d’ac­­tion. Elle devra pouvoir analy­­ser des quan­­ti­­tés surhu­­maines de données, répondre aux infor­­ma­­tions de dernière minute aussi vite que l’éclair, et il faudra qu’elle soit capable d’écrire non pas la dernière version d’un article, mais la première.

En bref, une telle tech­­no­­lo­­gie pour les épau­­ler produi­­rait à terme de meilleurs jour­­na­­listes, plus rapides et plus intel­­li­­gents. Appe­­lons-là Izzy, en hommage au jour­­na­­liste d’in­­ves­­ti­­ga­­tion Isador Fein­­stein Stone, qui a déterré de nombreux scan­­dales enfouis dans les dossiers du gouver­­ne­­ment améri­­cain en son temps. Nous sommes déjà en mesure de conce­­voir Izzy aujourd’­­hui. Cette tech­­no­­lo­­gie utili­­se­­rait la recon­­nais­­sance vocale pour accom­­plir un vaste éven­­tail de pratiques jour­­na­­lis­­tiques modernes. Les ordi­­na­­teurs veillent déjà sur les médias sociaux à la recherche des dernières infor­­ma­­tions, avec une rapi­­dité qu’au­­cun être humain ne peut égaler. Ils scannent les données et les docu­­ments afin d’éta­­blir des liens, pour les besoins de projets d’in­­ves­­ti­­ga­­tion complexes. Ils suivent la propa­­ga­­tion des rumeurs, véri­­fient l’exac­­ti­­tude des chiffres énon­­cés, et sont capables de créer instan­­ta­­né­­ment de courtes vidéos à partir de scripts, ne deman­­dant qu’à être peau­­fi­­nées par le jour­­na­­liste.


ulyces-journalismcyborg-01
Isador Fein­­stein Stone, alias Izzy

News Tracer

« C’est une course de vitesse, car les marchés finan­­ciers sont à la recherche de ce genre d’ou­­tils », déclare Reg Chua, respon­­sable du dépar­­te­­ment Données et inno­­va­­tion chez Reuters. L’agence de presse a produit ses premiers articles auto­­ma­­ti­­sés en 2001, en publiant des titres géné­­rés auto­­ma­­tique­­ment à partir du rapport hebdo­­ma­­daire de l’Ameri­­can Petro­­leum Insti­­tute. Ce rapport, qui contient les chiffres clés de la produc­­tion pétro­­lière, est étroi­­te­­ment surveillé par les traders des marchés de l’éner­­gie, qui ont besoin des dernières infor­­ma­­tions le plus rapi­­de­­ment possible – et bien entendu avant leurs concur­­rents. L’au­­to­­ma­­ti­­sa­­tion devient une évidence lorsque chaque seconde compte. Aujourd’­­hui, les agences de presse du monde entier diffusent envi­­ron 8 000 articles auto­­ma­­ti­­sés par jour, en plusieurs langues et sur n’im­­porte quel sujet. Les systèmes auto­­ma­­ti­­sés peuvent signa­­ler un chiffre, mais ne sont pas encore capables de dire ce qu’il signi­­fie. Les articles géné­­rés par ordi­­na­­teur ne proposent aucun contexte, aucune analyse tendan­­cielle, ils ne sont pas en mesure de rele­­ver les irré­­gu­­la­­ri­­tés ni de sonder les diffé­­rentes forces en présence. La tech­­no­­lo­­gie la plus récente de Reuters va plus loin, mais avec une aide humaine : elle écrit toujours des mots, mais elle n’est pas desti­­née à publier des articles de son propre chef. Ce système « d’in­­for­­ma­­tions auto­­ma­­tiques », actuel­­le­­ment en cours de déve­­lop­­pe­­ment, résume les données finan­­cières perti­­nentes et alerte les jour­­na­­listes. Au lieu de four­­nir ce que Chua appelle « les chiffres des gros titres (l’in­­dice était à tel niveau, plus haut ou plus bas qu’à la clôture d’hier) », la machine fait ressor­­tir « des analyses plus sophis­­tiquées comme, par exemple, la plus forte augmen­­ta­­tion depuis tant de temps – ce genre de choses ».

Ce système pour­­rait recher­­cher des chan­­ge­­ments dans la nota­­tion des analystes, rele­­ver des perfor­­mances excep­­tion­­nel­­le­­ment bonnes ou mauvaises par rapport à d’autres socié­­tés de la même indus­­trie, ou regar­­der si des acteurs clés du secteur ont récem­­ment vendu des actions. Plutôt que d’être un simple géné­­ra­­teur de phrases, il est censé « signa­­ler aux jour­­na­­listes des éléments qui pour­­raient présen­­ter un inté­­rêt pour eux », dit Chua. « Éléments qu’il présente sous la forme plus avan­­ta­­geuse d’une phrase. » ulyces-journalismcyborg-02Mais toutes les infor­­ma­­tions ne proviennent pas unique­­ment des flux de données finan­­cières. C’est pourquoi le système d’au­­to­­ma­­tion le plus sophis­­tiqué de Reuters repère les données en analy­­sant les médias sociaux. Leurs tests ayant démon­­tré qu’en­­vi­­ron 10 ou 20 % des infor­­ma­­tions sont d’abord diffu­­sées sur Twit­­ter, l’en­­tre­­prise a décidé de surveiller acti­­ve­­ment la plate­­forme. Toute entière. Fin 2014, Reuters a lancé un projet baptisé News Tracer. Le système analyse chaque tweet en temps réel – soit 500 millions de tweets quoti­­diens. Tout d’abord, il filtre le spam et la publi­­cité. Ensuite, il rassemble les tweets trai­­tant du même sujet et attri­­bue à ce groupe un mot-clé tel que « busi­­ness », « poli­­tique » ou « sports ». Enfin, il utilise des tech­­niques de trai­­te­­ment du langage pour géné­­rer un résumé clair de chaque groupe.

Il y a déjà eu des systèmes de surveillance des médias sociaux, prin­­ci­­pa­­le­­ment mis en place pour les profes­­sion­­nels du marke­­ting et de la finance. DataMinr, une plate­­forme commer­­ciale puis­­sante qui analyse égale­­ment chaque tweet, est un concur­rent de l’ou­­til interne de Reuters – une bonne nouvelle pour les jour­­na­­listes qui ne travaillent pas chez eux. Mais News Tracer a été inté­­gra­­le­­ment pensé et créé pour les jour­­na­­listes, et ce qui le distingue le plus est peut-être son évalua­­tion de l’ « exac­­ti­­tude » et de la « perti­­nence » qu’il attri­­bue à chaque groupe. Les pratiques ayant cours au sein des rédac­­tions sont géné­­ra­­le­­ment trop infor­­melles pour pouvoir être codi­­fiées. De combien de sources indé­­pen­­dantes ont besoin les jour­­na­­listes avant d’être dispo­­sés à écrire un article ? Quelles sont les sources dignes de confiance ? Pour quel type d’ar­­ticle ? « Ce qui est inté­­res­­sant quand on commence à passer aux machines, c’est qu’on doit se mettre à codi­­fier tout ça », dit Chua. Un peu comme lorsqu’il s’agit de program­­mer l’éthique d’une voiture sans conduc­­teur, l’exer­­cice consiste à trans­­for­­mer des juge­­ments impli­­cites en instruc­­tions claires.

ulyces-journalismcyborg-03
Regi­­nald Chua
Crédits : Univer­­sity of Hong Kong

News Tracer attri­­bue une cote de crédi­­bi­­lité, basée sur des critères qu’un humain pren­­drait en consi­­dé­­ra­­tion : loca­­li­­sa­­tion et iden­­tité de l’émet­­teur, certi­­fi­­ca­­tion de l’uti­­li­­sa­­teur, façon dont le tweet se propage sur le réseau social et confir­­ma­­tion/inva­­li­­da­­tion de l’in­­for­­ma­­tion par d’autres utili­­sa­­teurs. Plus impor­­tant encore, Tracer confronte les tweets à une « base de connais­­sances » de sources fiables interne. Ici, intel­­li­­gences humaine et algo­­ri­th­­mique travaillent de concert : les jour­­na­­listes sélec­­tionnent soigneu­­se­­ment des comptes sources fiables et l’or­­di­­na­­teur analyse quels autres comptes suivent et retweetent ces premiers, afin de déter­­mi­­ner s’ils sont eux aussi dignes de confiance. « Mettons qu’une bombe éclate quelque part et que le compte certi­­fié de la police locale le rapporte, ou le bureau du maire, ou celui de la Maison-Blan­­che… », explique Chua. En obte­­nant ces infor­­ma­­tions, Reuters a le feu vert pour écrire un article et un jour­­na­­liste doit en être informé. News Tracer doit égale­­ment déci­­der si un groupe de tweets est une « infor­­ma­­tion » ou simple­­ment un sujet popu­­laire. Pour bâtir leur système, les ingé­­nieurs de Reuters ont sélec­­tionné plusieurs groupes de tweets et véri­­fié si la rédac­­tion avait effec­­ti­­ve­­ment écrit un article sur chacun de ces événe­­ments – ou si les jour­­na­­listes auraient écrit un article sur le sujet s’ils en avaient été infor­­més. Ils ont ainsi recueilli un corpus d’évé­­ne­­ments dignes d’in­­té­­rêt. Les ingé­­nieurs ont égale­­ment surveillé les comptes Twit­­ter de jour­­na­­listes respec­­tés de la profes­­sion, et d’autres comme @Brea­­kingNews, qui tweete très en avance des alertes sur des événe­­ments véri­­fiés. Toutes ces données ont été utili­­sées pour apprendre à la machine à comprendre ce qu’é­­tait une infor­­ma­­tion perti­­nente. Reuters a en quelque sorte montré à News Tracer ce que les jour­­na­­listes voulaient voir.

« Le problème, c’est le problème. » — Michael Sedl­­mair

Les résul­­tats obte­­nus jusqu’à présent sont impres­­sion­­nants. Tracer a signalé le bombar­­de­­ment d’hô­­pi­­taux à Alep et les atten­­tats terro­­ristes de Nice et Bruxelles bien avant que d’autres médias ne le fassent. Chua estime que l’ou­­til a permis à chaque fois au jour­­na­­liste de Reuters de commen­­cer son repor­­tage de 8 à 60 minutes plus tôt que ses concur­­rents, une avance non négli­­geable. Pour Chua, l’im­­por­­tance de Tracer ne réside pas unique­­ment dans ce que la machine est capable de faire, mais dans ce qu’elle permet aux jour­­na­­listes de faire pendant ce temps libéré : « Parler aux gens, poser des ques­­tions qui n’ont pas déjà été posées, faire des analo­­gies que les machines ne savent pas faire aussi bien, etc. »

Coop

Il serait tentant de deman­­der à notre hypo­­thé­­tique jour­­na­­liste arti­­fi­­ciel de travailler tout seul. « Izzy, enquête sur ces données », lui dirait-on. Mais il faudra beau­­coup de temps avant qu’un ordi­­na­­teur puisse écrire par lui-même autre chose qu’un article très basique. En 2012, Michael Sedl­­mair, profes­­seur adjoint du groupe de visua­­li­­sa­­tion et d’ana­­lyse des données de l’uni­­ver­­sité de Vienne, a co-publié un article dans lequel il explique pourquoi tant de choses sont si diffi­­ciles à faire pour les ordi­­na­­teurs. « Le problème, c’est le problème », dit Sedl­­mair. « Le postu­­lat de base, dans les approches auto­­ma­­tiques, c’est que le problème est bien défini. C’est-à-dire que nous savons exac­­te­­ment quelle est la tâche à effec­­tuer et nous avons toutes les données néces­­saires pour résoudre le problème. » Sedl­­mair classe les problèmes sur un diagramme à deux axes. Sur le premier axe est indiqué le degré de clarté des tâches – à quel point le problème est bien défini. Ache­­ter un billet de train, déci­­der si un cour­­rier élec­­tro­­nique est du spam, véri­­fier si le nom d’une personne appa­­raît ou pas dans une base de données sont autant de problèmes clairs avec des solu­­tions claires.

ulyces-journalismcyborg-04
Michael Sedl­­mair

Mais beau­­coup de problèmes inté­­res­­sants – dont la plupart de ceux posés par le jour­­na­­lisme – ne sont pas clairs du tout. Il n’y a pas de recette unique pour effec­­tuer des recherches, suivre une intui­­tion ou avoir une idée d’ar­­ticle en lisant des données. « Il n’existe pas de solu­­tion opti­­male à ces problèmes », résume Sedl­­mair. Le second axe repré­­sente l’em­­pla­­ce­­ment des infor­­ma­­tions néces­­saires à la réso­­lu­­tion du problème. Les déve­­lop­­peurs supposent souvent que toutes les infor­­ma­­tions néces­­saires sont déjà stockées dans l’or­­di­­na­­teur en tant que données, mais c’est rare­­ment le cas dans le jour­­na­­lisme. « Pour remplir certaines tâches, les données doivent souvent être asso­­ciées à des infor­­ma­­tions qui ne sont pas infor­­ma­­ti­­sées mais qui restent “enre­­gis­­trées” dans la tête des gens », affirme Sedl­­mair. Le Wall Street Jour­­nal a par exemple révélé que le PDG d’EMC Corpo­­ra­­tion utili­­sait régu­­liè­­re­­ment les jets de l’en­­tre­­prise pour ses vacances person­­nelles. Cette infor­­ma­­tion provient de l’ana­­lyse des éléments de vol de la FAA, mais les données ne deviennent un article que lorsqu’elles sont asso­­ciées à des infor­­ma­­tions supplé­­men­­taires, comme la loca­­li­­sa­­tion des lieux de vacances du PDG et le fait qu’il n’est pas censé utili­­ser ces jets pour des voyages person­­nels. Cette infor­­ma­­tion-là se trou­­vait dans la tête du jour­­na­­liste, sans doute tirée d’en­­tre­­tiens ou de soirées passées à lire des docu­­ments confi­­den­­tiels. Aucun algo­­rithme ne pourra jamais propo­­ser un tel article – et tous ceux qui pour­­raient en décou­­ler – à partir des seules données de la FAA, pour la simple et bonne raison que l’iden­­ti­­fi­­ca­­tion du modèle de vol suspect néces­­site des infor­­ma­­tions qui ne figurent pas dans les données. ulyces-journalismcyborg-05« Les solu­­tions entiè­­re­­ment auto­­ma­­tiques sont effi­­caces lorsque la tâche est claire et que nous avons toutes les infor­­ma­­tions néces­­saires – ou du moins la plupart – dans l’or­­di­­na­­teur pour résoudre cette tâche », dit Sedl­­mair. Pour tout le reste – une bonne partie du métier de jour­­na­­liste –, nous avons besoin d’une coopé­­ra­­tion homme-machine. Au lieu de deman­­der aux ordi­­na­­teurs de faire le travail, les jour­­na­­listes devront les rencon­­trer à mi-parcours et séquen­­cer leur travail en tâches rela­­ti­­ve­­ment concrètes et auto­­nomes. Par chance, cela reste extrê­­me­­ment utile.

IA anti-corrup­­tion

« Les méthodes employées par les crimi­­nels ne sont pas innom­­brables », dit Paul Radu, cofon­­da­­teur de l’Orga­­ni­­zed Crime and Corrup­­tion Repor­­ting Project, un collec­­tif de jour­­na­­listes roumain spécia­­lisé dans le crime orga­­nisé et la corrup­­tion. Les tech­­niques utili­­sées pour dissi­­mu­­ler de l’argent et des biens se propagent via des réseaux under­­grounds et se repro­­duisent d’un pays à l’autre. Basé à Sarajevo, l’OCCRP est aujourd’­­hui un consor­­tium de plus de 150 jour­­na­­listes travaillant dans une tren­­taine de pays. Ensemble, ils ont suivi, à travers l’Eu­­rope de l’Est et la Russie, la trace de milliards de dollars issus du blan­­chi­­ment d’argent et de la corrup­­tion. Un jour, Radu s’est fait passer pour un ache­­teur d’es­­claves afin d’in­­fil­­trer un groupe de trafic d’êtres humains. Mais ces derniers temps, l’OCCRP travaille presque unique­­ment sur des docu­­ments – publics pour la plupart – afin de retrou­­ver des biens par-delà les fron­­tières et les socié­­tés fictives dans les para­­dis fiscaux. Ce qui rend leur travail parti­­cu­­liè­­re­­ment adapté à l’as­­sis­­tance infor­­ma­­tique. L’OCCRP a déjà beau­­coup investi dans des outils de gestion de docu­­ments et de collecte de données. Leur but est main­­te­­nant d’ap­­prendre à un ordi­­na­­teur à déce­­ler les crimes à travers les données. occrp_logoSuppo­­sons qu’un jour­­na­­liste travaillant dans une ville découvre que l’ad­­mi­­nis­­tra­­tion locale délivre des permis de construire beau­­coup plus rapi­­de­­ment à une entre­­prise en parti­­cu­­lier, dans un délai de deux mois au lieu des neuf habi­­tuels. Après une enquête plus appro­­fon­­die, le jour­­na­­liste découvre un lien de parenté entre cette entre­­prise et un fonc­­tion­­naire, et écrit un article.

L’étape suivante la plus logique est de recher­­cher si d’autres entre­­prises, peut-être situées dans d’autres villes, béné­­fi­­cient elles aussi d’au­­to­­ri­­sa­­tions dans un délai inha­­bi­­tuel­­le­­ment court. Un jour­­na­­liste pour­­rait égale­­ment apprendre qu’une série de contrats a été accor­­dée à des entre­­prises appar­­te­­nant à des fonds panaméens, fusion­­nées quelques jours aupa­­ra­­vant et toutes repré­­sen­­tées par le même cabi­­net d’avo­­cats. Il pour­­rait s’agir d’une stra­­té­­gie mise en place à des fins fiscales pour masquer les véri­­tables béné­­fices. Cela justi­­fie­­rait que d’autres jour­­na­­listes se lancent à la recherche de four­­nis­­seurs appar­­te­­nant à des entre­­prises panaméennes récem­­ment créées. Le projet de l’OCCRP, Crime Pattern Recog­­ni­­tion (« recon­­nais­­sance de schéma crimi­­nel »), n’en est qu’à ses balbu­­tie­­ments. Le concept est le suivant : les jour­­na­­listes du réseau OCCRP doivent décrire à travers l’en­­semble des données le chemi­­ne­­ment qui les a amenés à l’écri­­ture de leur article, ce que les déve­­lop­­peurs ont pour mission de trans­­for­­mer en requêtes. Ces requêtes seront lancées en perma­­nence sur les nouveaux docu­­ments publiés par les gouver­­ne­­ments ou obte­­nus par les jour­­na­­listes de l’OCCRP à partir d’une grande variété de sources, y compris les fuites d’in­­for­­ma­­tions et les très nombreuses demandes adres­­sées aux agences fédé­­rales améri­­caines sur la base du Free­­dom of Infor­­ma­­tion Act. « Il est vrai­­ment très utile d’ex­­ploi­­ter l’ex­­pé­­rience des jour­­na­­listes locaux », explique Radu, « car cela permet­­tra à d’autres jour­­na­­listes, assis­­tés d’un ordi­­na­­teur, de recher­­cher des infrac­­tions semblables. La machine a un rôle très impor­­tant car elle peut signa­­ler d’autres occur­­rences du même type de corrup­­tion. On sait alors qu’on devrait enquê­­ter sur le sujet. J’ai bon espoir que les jour­­na­­listes adhèrent à cette démarche. » Radu souligne que ce système génère des pistes, pas des articles. « Il reste essen­­tiel que l’enquê­­teur analyse, véri­­fie et mène véri­­ta­­ble­­ment l’enquête. »

paul_radu31
Paul Cris­­tian Radu
Crédits : ICIJ

Frie­­drich Linden­­berg, déve­­lop­­peur pour l’OCCRP, pose les limites de cette tech­­nique d’ana­­lyse des données : « Si on dispo­­sait des données suffi­­santes pour comprendre l’éco­­no­­mie mondiale, on pour­­rait simple­­ment rempla­­cer les jour­­na­­listes par des machines qui recon­­naî­­traient puis trie­­raient les infrac­­tions sur une échelle de perti­­nence poli­­tique avant de rédi­­ger l’ar­­ticle tout seuls. Mais le monde est encore opaque et exige du travail humain, de la créa­­ti­­vité et du juge­­ment pour établir des liens entre les personnes, les entre­­prises et les biens. » Si l’OCCRP se porte bien, c’est notam­­ment parce que l’or­­ga­­nisme est méti­­cu­­leux au sujet de la collecte des données. Si nous avons appris quelque chose au cours des vingt dernières années de recherche en IA, c’est bien que ce sont les données qui font la diffé­­rence. La traduc­­tion auto­­ma­­tique aurait été impos­­sible sans une grande quan­­tité de versions du même texte en plusieurs langues, et chaque voiture sans conduc­­teur apprend de l’ex­­pé­­rience de conduite de tous les autres véhi­­cules auto­­nomes.

À mesure que les agences de presse se fami­­lia­­risent à l’uti­­li­­sa­­tion de sources de données volu­­mi­­neuses et diver­­si­­fiées, des exploits aupa­­ra­­vant impos­­sibles, comme de trou­­ver toutes les occur­­rences d’un même type d’es­­croque­­rie commis par les entre­­prises, devien­­dront aisé­­ment réali­­sables. La plupart des organes de presse ne collectent et n’ex­­ploitent pas systé­­ma­­tique­­ment leurs données. Des groupes comme l’OCCRP et le Consor­­tium inter­­­na­­tio­­nal des jour­­na­­listes d’in­­ves­­ti­­ga­­tion sont des excep­­tions : ils connaissent la valeur des données et en amassent petit à petit de très grandes quan­­ti­­tés pour servir le jour­­na­­lisme d’in­­ves­­ti­­ga­­tion trans­­na­­tio­­nal, comme l’enquête sur les Panama Papers. Les condi­­tions liées à l’uti­­li­­sa­­tion de ces données, qui proviennent de sources très variées, sont multiples. Il faut fran­­chir bien des obstacles tech­­niques, juri­­diques et éthiques impor­­tants avant de réus­­sir à diffu­­ser large­­ment certaines de ces archives internes, mais même les données publiques en accès libre peuvent se révé­­ler extrê­­me­­ment utiles. En sachant comment les recueillir et les analy­­ser, il est possible de réali­­ser des choses qui n’ont jamais été possibles avant.

LISEZ ICI LA SUITE DE L’HISTOIRE

COMMENT CONSTRUIRE UN JOURNALISTE CYBORG

ulyces-journalismcyborg-couv


Traduit de l’an­­glais par Juliette Murray d’après l’ar­­ticle « The age of the cyborg », paru dans la  Colum­­bia Jour­­na­­lism Review. Couver­­ture : Un jour­­na­­liste et son robot. (DR/Ulyces)


Down­load WordP­ress Themes Free
Down­load WordP­ress Themes
Down­load Nulled WordP­ress Themes
Down­load Nulled WordP­ress Themes
udemy paid course free down­load
Premium WordPress Themes Download
Free Download WordPress Themes
Download WordPress Themes
Download WordPress Themes Free
udemy course download free

Plus de monde