
Image : Pexels
Bienvenue dans la Boîte à outils de GIJN, une série d’articles dans laquelle nous recensons pour vous des outils et techniques pouvant être utiles pour enquêter. Dans cet article, nous vous proposons de découvrir CrowdTangle et Echosec, qui permettent d’effectuer des recherches pour tous types de contenus (photos et vidéos comprises) sur Twitter, Facebook et Reddit. D’autres outils peuvent être utilisés par les journalistes pour extraire des contenus publiés sur Facebook, même si la recherche est plus difficile sur ce réseau social depuis que le “graph search” a été désactivé en juin 2019.
CrowdTangle : la recherche d’anciennes parutions sur les réseaux sociaux
BuzzSumo et CrowdTangle, qui est détenu par Facebook, peuvent aider les journalistes à rechercher les contenus viraux, afin d’enquêter sur les campagnes de désinformation en ligne, y compris sur Facebook. Ces outils permettent de trouver les contenus les plus partagés, ou ceux qui génèrent le plus de réactions, et d’afficher des données de partage détaillées pour aider à identifier des relations entre différentes pages Facebook et comptes Twitter.
CrowdTangle est “un outil Facebook accessible à tous qui facilite le suivi et l’analyse des contenus publics sur les réseaux sociaux.” Cet outil propose une extension gratuite sur Google Chrome, mais ses fonctionnalités sont limitées. Le principal intérêt de CrowdTangle est sa plateforme de recherche, qui puise dans une base de données des pages Facebook et Instagram publiques. Malheureusement, le site avertit que ses équipes ne peuvent accepter “qu’un nombre limité de nouveaux utilisateurs”. Pour ceux qui y ont déjà accès, ou ceux qui souhaitent en savoir plus sur le fonctionnement de cet outil, voici comment il fonctionne :
Notons tout d’abord que tous les comptes publics sur Facebook et Instagram ne figurent pas sur la plateforme. L’outil ajoute automatiquement les pages Facebook publiques d’au moins 100 000 likes ou adhérents, sauf pour les groupes publics basés aux États-Unis, qui sont ajoutés automatiquement à partir de 2 000 membres, comme nous l’a expliqué Naomi Shiffman, chargée des relations aux universitaires et chercheurs au sein de CrowdTangle. La plateforme ajoute automatiquement tous les comptes Instagram publics d’au moins 75 000 abonnés, et tous les profils publics Facebook et Instagram vérifiés. Les utilisateurs peuvent néanmoins ajouter manuellement n’importe quelle page ou groupe Facebook public, ainsi que n’importe quel compte Instagram, quel que soit sa popularité.
CrowdTangle peut également permettre de faire des recherches sur Reddit et Twitter, mais pour ces sites je vous recommande plutôt d’utiliser Echosec ou, mieux encore, des outils de codage open source comme TWINT ou rtweet car ils permettent d’accéder directement aux données brutes. (Pour apprendre comment récupérer des données Twitter grâce à rtweet, consultez ce cours de Michael W. Kearney de l’université du Missouri.)
Voici comment utiliser CrowdTangle.
Mettons que nous nous intéressons aux contenus générés par les utilisateurs au sujet de la Syrie au cours des 12 derniers mois. Voici comment procéder :

Image : CrowdTangle
Mais si par exemple vous souhaitez savoir quand un contenu particulier est apparu pour la première fois sur Facebook. Qui en est l’auteur ? Qui a pour la première fois relayé ce contenu ? Il est possible de retrouver les données historiques puis de les télécharger dans un fichier .csv : pour cela, cliquez sur la flèche en haut à droite de l’écran et sélectionnez “Download CSV” (“Télécharger CSV”).

Image : CrowdTangle
Ce fichier vous permettra ensuite de déterminer toutes les fois où CrowdTangle a détecté ce contenu particulier.
Remarquons toutefois que les données n’apparaîtront sur ce fichier qu’à partir du moment où CrowdTangle y a intégré le contenu désiré, et non pas dès leur première parution sur Facebook.
Cet outil peut donc vous aider à déterminer la provenance d’un contenu, c’est-à-dire sa première apparition en ligne mais il ne ne peut pas vous dire de manière définitive d’où il provient. Il peut seulement vous rapprocher de la source, et vous indiquer comment le contenu s’est répandu sur les réseaux.
Il vous faudra effectuer des recherches plus poussées pour en savoir davantage sur l’origine d’un contenu. (Un outil qui pourrait vous être utile est Hoaxy, que le journaliste canadien et spécialiste de la désinformation en ligne Craig Silverman a recommandé dans cet article pour GIJN.)
Trouver des contenus enfouis sur Facebook
Dans le cadre d’une enquête en ligne, les contenus viraux ne sont les seuls intéressants. Les journalistes recherchent aussi l’inverse : des contenus enfouis sur les réseaux sociaux, oubliés depuis longtemps, qui n’attendent que d’être déterrés et utilisés dans le cadre d’enquêtes d’intérêt public.
Des contenus très peu partagés ou visionnés peuvent ainsi servir à authentifier une frappe aérienne dans un conflit à l’étranger. Si vous faites des recherches sur Facebook, gardez à l’esprit que l’interface de Facebook est loin d’être parfaite ; elle ne montrera pas nécessairement tous les résultats correspondant à vos critères de recherche. Cela rend extrêmement difficile la recherche des données concernant un incident ou individu spécifique. Prenez également en compte que l’algorithme de Facebook donnera la priorité aux résultats qu’il pense pertinents : mieux vaut donc dérouler les résultats et essayer différentes recherches pour augmenter ses chances de tomber sur le contenu souhaité.
Who Posted What? est un outil gratuit qui permet de trouver un numéro d’identification Facebook, que vous pouvez ensuite utiliser pour rechercher sur graph.tips les publications et photos d’un utilisateur spécifique. Who Posted What? permet également d’effectuer des recherches par mots-clés à des dates précises. Supposons, que vous recherchiez des informations sur une frappe aérienne à Sarmin, dans le gouvernorat d’Idlib, en Syrie, le 9 avril 2017. Pour cela, le mieux est de faire une recherche avec le nom de la ville, en arabe, dans Who Posted What ?, en précisant la date.
Voici ce que Facebook trouve grâce à cette recherche. On peut trouver quelques publications d’utilisateurs qui pourraient être pertinentes (en rouge) et dont il faudrait, dans un deuxième temps, vérifier l’authenticité :
Bien que Facebook ait réduit la capacité de recherche sur sa plateforme, il existe encore des moyens de trouver des contenus en utilisant des paramètres spécifiques, soit via des outils librement disponibles, tels que ceux cités ci-dessus et le moteur de recherche pour réseaux sociaux créé par Loránd Bodó, soit via des outils payants (parfois très chers), comme Echosec, X1 Social Discovery et Samdesk.

Image : Whopostedwhat.com
Une autre astuce consiste à utiliser la recherche avancée sur Google. Cette méthode est bien connue – elle a été décrite par GIJN et par d’autres – donc nous n’entrerons pas dans ces détails ici. Mais utiliser Google pour rechercher des contenus publiés sur Facebook peut être plus efficace que d’utiliser l’interface de Facebook elle-même.
Voici un exemple de recherche avancée sur Google sur les contenus Facebook publiés sur les manifestations d’août 2020 dans la ville de Kenosha, dans le Wisconsin :
site:facebook.com protest AND kenosha -news
Site:facebook.com
restreint la recherche à Facebook uniquement. Les mots clés protest AND kenosha
permettent de s’assurer que ces deux mots figurent dans la publication et -news
exclue le mot ‘news’ du texte. Notre objectif est ainsi d’exclure les articles de presse pour ne voir que les publications originales de citoyens ordinaires sur le terrain, pas celles de journalistes. Parmi les résultats figurent encore quelques articles de presse, mais il est encore possible de filtrer bon nombre d’entre eux.
Il est également possible de limiter la recherche à une période de temps donnée. Ainsi, on peut restreindre la recherche uniquement au mois d’août, précisément depuis le jour de l’événement qui a déclenché les manifestations jusqu’à la fin du mois. Vous pouvez filtrer les dates en cliquant sur “Outils” puis en sélectionnant le menu déroulant “Date indifférente”. Cliquez ensuite sur “Date précise” et définissez la période qui vous intéresse.
Echosec : une plateforme puissante pour trouver des contenus générés par les utilisateurs
Echosec est un outil payant permettant d’effectuer des recherches sur des réseaux sociaux tels que Twitter, YouTube, Reddit, Medium, Gab, Discord, 4chan et les sites russes VK (VKontakte) et OK (Odnoklassniki). Vous pouvez y limiter vos recherches à une zone géographique donnée, soit en dessinant virtuellement sur une carte la zone qui vous intéresse soit en l’écrivant dans la barre de recherche.
Par exemple, si nous nous intéressons aux vidéos de cet incident ayant eu lieu le 1er juin à Washington, au cours duquel des policiers ont gazé des manifestants sur la place qui se trouve entre l’église Saint-Jean et Lafayette Square pour permettre à l’ex-président des États-Unis Donald Trump de s’y déplacer et s’y faire prendre en photo.
Si on délimite la zone de manière approximative sur la carte, puis on écrit le mot-clé “Trump” en ajoutant un filtre temporel pour ne voir aucune publication datant d’avant le 1er juin. Voici les résultats générés par Echosec :

Image : Echosec

Image : Echosec
Les résultats sont nombreux. Concentrons-nous sur la zone autour de Lafayette Square. Echosec semble avoir trouvé au moins 10 vidéos différentes sur YouTube correspondant aux critères indiquées.
Voici un exemple de vidéo trouvé par Echosec :

Image : Echosec
Les journalistes peuvent utiliser cet outil pour trouver des contenus (vidéos comme photos). Ils peuvent ensuite les géolocaliser et les dater afin de vérifier si les images ont réellement été tournées à l’endroit indiqué, et à la date dite. C’est l’une des premières étapes pour authentifier une photo ou une vidéo mise en ligne. Pour une formation plus poussée à la vérification de contenus d’internautes, vous pouvez consulter les cours pour débutants et étudiants plus avancés proposés par First Draft, une organisation à but non lucratif qui lutte contre la désinformation en ligne.
Le tarif pour accéder à Echosec Systems dépend de multiples facteurs et est déterminé au cas par cas par la plateforme. Echosec Systems a déjà travaillé avec des organisations spécialisées dans les enquêtes en sources ouvertes, comme Bellingcat, membre de GIJN. Les journalistes sont invités à réserver une présentation téléphonique du service ici. Les abonnés peuvent avoir accès gratuitement à la formation Echosec Essentials.
C’est tout pour cette édition de la Boîte à outils. Dans les prochains épisodes nous reviendrons sur l’utilisation des données de télédétection de la NASA, la recherche de noms d’utilisateurs identiques sur les réseaux sociaux, les logiciels de reconnaissance faciale et un nouvel outil de Google News Initiative appelé Pinpoint.
Liens recommandés
- Les infographies d’horodatage sur les réseaux sociaux, par First Draft
- “Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Instagram, GitHub, and More”, 3e édition (disponible à l’achat sur Amazon)
- Stratégies de recherche sur les réseaux sociaux, du blog de Loránd Bodó
Lectures complémentaires
Les outils préférés de Malachy Browne
Guide pour authentifier une vidéo
Enquêter sur les réseaux sociaux avec Henk van Ess
Brian Perlman est journaliste à GIJN. Il est spécialisé dans les recherches sur les violations des droits de l’homme à l’aide de méthodes d’enquête en ligne avancées, de l’analyse de données et de techniques d’enquête en sources ouvertes. Il est diplômé de la Graduate School of Journalism de l’UC Berkeley et ancien coordinateur au sein du Human Rights Center de Berkeley Law.