Dans une salle si noire de monde que certains membres de l’assistance ont dû s’asseoir par terre, trois pionniers du data journalisme ont détaillé les dernières avancées dans le domaine du “ scraping ”et expliqué comment recueillir des données exclusives.
Sarah Cohen, Brant Houston et Jennifer LaFleur sont des journalistes chevronnés qui enseignent le journalisme d’investigation au sein d’universités américaines.
« J’ai commencé en 1986 à faire du journalisme de données, qu’on appelait alors du journalisme assisté par ordinateur », a déclaré Brant Houston, professeur titulaire de la chaire Knight de journalisme d’investigation à l’Université de l’Illinois, pendant la Conférence mondiale sur le journalisme d’investigation tenue à Hambourg.
Les carrières des trois intervenants se sont croisées à plusieurs reprises et ils ont tous travaillé au sein de l’organisation Investigative Reporters and Editors (IRE).
« Nous avons tous travaillé ensemble à un certain moment à l’IRE ; ça se voit parce que nous nous disputons sans arrêt », a déclaré Sarah Cohen, professeure à l’Université d’État de l’Arizona.
En tant qu’enseignants de data journalisme, ils se tiennent au courant des dernières avancées dans le domaine. Aujourd’hui, les mots les plus en vogue dans le secteur sont le “ machine learning ” et l’intelligence artificielle, a déclaré Cohen.
En général, les journalistes utilisent ces outils pour traiter les fuites massives de documents et les données en vrac. Les algorithmes peuvent les regrouper par thème, aidant ainsi à la sélection et au nettoyage des informations d’intérêt public.
Des outils d’apprentissage automatique plus avancés peuvent associer images et sons, ainsi que retranscrire des enregistrements.
Le Wall Street Journal, par exemple, a utilisé l’outil d’analyse linguistique Quid pour mettre en lumière des milliers de faux commentaires sur les sites internet d’agences fédérales aux Etats-Unis.
Pour la retranscription d’entretiens, le panel a suggéré des outils fondés sur l’intelligence artificielle, Otter et Trint, qui sont tous deux payants mais qui proposent des essais gratuits pour un maximum de 30 heures d’enregistrements.
Capteurs
Les capteurs sont un excellent moyen d’obtenir des données lorsqu’il n’y en a aucune disponible.
En 2018, le Philadelphia Enquirer a utilisé des capteurs pour déterminer la quantité de plomb dans l’eau et l’air des écoles. Ils ont apporté leur propres instruments de mesure dans les écoles et ont recruté des enseignants pour les aider à recueillir les données.
Le centre d’investigation Reveal et le Center for Public Integrity ont mesuré les gaz d’échappement à proximité des écoles et ont calculé leur impact sur la santé des enfants.
Brant Houston travaille actuellement sur un projet concernant la dérive des pesticides autour d’écoles. Selon lui, l’utilisation d’outils et de méthodes adaptées est la clé pour obtenir de bons résultats.
« Vous pouvez en acheter pour peu cher. Je vous recommande vivement de rechercher quel type de capteur vous sera le plus utile, et d’établir le bon emplacement pour en faire usage, » conseille Brant Houston.
Le haut potentiel des capteurs réside dans leur capacité à générer des données exclusives.
« Personne d’autre n’aura cette enquête », a ainsi souligné Sarah Cohen.
L’utilisation de capteurs pouvant être complexe, le panel a suggéré de faire appel à une société spécialisée pour se former à leur bon usage, ou bien de collaborer avec une université.
Journalisme spatial
Les journalistes peuvent également se tourner vers le journalisme spatial – un concept qui a fait rire dans l’auditoire – pour créer des données lorsqu’il n’en existe pas encore.
Ce concept désigne le journalisme utilisant les images satellites et non pas des reportages réalisés par des astronautes.
« Surtout si vous vous trouvez dans des zones où vous ne pouvez pas obtenir de données, les données obtenues par satellite peuvent être très importantes », a expliqué Jennifer LaFleur, qui enseigne à l’Université Américaine à Washington.
Avec le changement climatique et les « variations climatiques extrêmes », le rôle des images satellites pour traiter l’information ira en grandissant, a-t-elle ajouté.
Le journalisme spatial peut être utilisé pour mettre en évidence, entre autres, des zones de pollution, des communautés isolées, des constructions illicites, de la sécheresse, des inégalités, des voies de migration humaine et des zones de gentrification.
Jennifer LaFleur a pris comme exemple une enquête de Reuters qui utilisait des images satellites pour illustrer les changements ayant lieu au sein des camps abritant des centaines de milliers de réfugiés rohingyas au Bangladesh.
Les satellites utilisent des mesures de réflexion pour aider à visualiser des zones du spectre lumineux que l’œil humain ne perçoit pas.
« Le traitement des données peut être un peu délicat », a prévenu Jennifer LaFleur. « Mais les outils pour y parvenir se sont beaucoup améliorés. »
Les ressources suivantes permettant d’accéder aux données satellitaires sont gratuites :
- L’Observatoire de la Terre de la NASA
- Le moteur de recherche Google Earth
- Une vue d’ensemble des bandes spectrales et de ce qu’elles peuvent servir à mesurer
L’une des premières enquêtes ayant fait usage de données satellites est une série d’articles parue en 2006 dans le St. Petersburg Times, un journal en Floride qui a cessé toute publication en 2014. Cette enquête montrait la disparition de terres marécageuses aux États-Unis et la faible application des règles fédérales censées les protéger. La série n’est plus en ligne mais a été adaptée sous forme d’un livre, qui porte le titre Paving Paradise.
Enquêtes scientifiques
Certains des projets les plus récents faisant un usage novateur de données combinent vidéos, textes, enregistrements audios et réseaux sociaux pour recréer des événements.
« La vraie force de beaucoup de ces enquêtes réside dans le calendrier », a avancé Brant Houston. « Ces calendriers révèlent que les gens ont menti sur le déroulé des évènements. »
Henk van Ess, de Bellingcat, et Malachy Browne, du New York Times, sont deux journalistes ayant utilisé des données très variées pour reconstituer un calendrier des faits ; respectivement sur la disparition du journaliste Jamal Khashoggi et sur les déplacements d’un lanceur de missiles découvert en Egypte.
Mais les derniers outils disponibles vont au-delà de la collecte et la compilation de données.
Jennifer LaFleur a évoqué Collaborate, un nouvel outil facilitant la collaboration entre organisations et journalistes, tels que les Implant Files du Consortium international de journalistes d’investigation (ICIJ) et la Troïka Laundromat du Projet de journalisme dédié au crime organisé et à la corruption (OCCRP).
L’outil Collaborate de ProPublica aide les rédactions à s’organiser et à s’entraider sur des projets de Big Data en leur permettant « d’assigner des points de données à des individus ou à des rédactions ; de suivre leurs avancées et de conserver les observations concernant chaque point de données ; de trier, filtrer et exporter les données ; et de censurer de manière automatique les informations sensibles », selon son site internet.
La plus grande accessibilité des outils pour travailler les données signifie en tout cas, et c’est peut-être le plus important, qu’un plus grand nombre de rédactions peuvent utiliser les données pour enquêter.
Le journal argentin La Nacion a ainsi développé des outils de partage des données dans sa salle de rédaction.
« Je m’y suis rendu pour rencontrer certains journalistes il y a peut-être dix ans. Ils m’ont dit à l’époque : « Nous n’y arriverons jamais, il n’y a pas de données », s’est souvenu Jennifer LaFleur.
« Mais en fouillant et en construisant leurs propres bases de données [ils sont devenus] des pionniers internationaux du journalisme de données. Par ailleurs, c’est une équipe composée entièrement de femmes, ce qui est plutôt chouette », a-t-elle déclaré.
L’outil de partage de données de La Nacion s’appelle VozData .
Brant Houston a assisté au développement du journalisme de données, qui est passé des disquettes des années 1980 à des outils de collaboration en ligne tels que VozData. Selon lui, les principes élaborés il y a 40 ans sont à l’origine des dernières tendances en matière de données.
« Depuis le début, nous avons toujours recherché des patrons, des évolutions et des valeurs attirant l’attention dans les données », a-t-il expliqué. « Aujourd’hui, nous continuons d’utiliser des logiciels, anciens comme nouveaux, qui nous permettent de passer au crible, d’organiser et de visualiser ces éléments plus rapidement. »
C’est dans la fusion de différents outils qu’on trouve les innovations les plus impressionnantes, a poursuivi Brant Houston
« En ce qui me concerne, c’est l’utilisation simultanée de plusieurs outils, plutôt qu’un outil en particulier, qui arrive encore à me surprendre », a-t-il déclaré. « Les outils ont souvent été conçus et utilisés par d’autres professions avant qu’ils soient utilisés par les journalistes. »
Jelter Meers est chercheur et journaliste au sein d’OCCRP, ainsi que coordonnateur et rédacteur au sein du Consortium de formation en journalisme d’investigation (IJEC). Il a aidé à organiser les interventions d’universitaires sur le data au #GIJC2017 et au #GIJC2019.
Ce guide a été traduit par Olivier Holmey.