Réseaux Sociaux

Comment enquêter sur la menace croissante de la propagande par “selfies”

By Rowan Philp | April 20, 2022

Des journalistes de ProPublica et du New York Times ont enquêté sur une campagne en ligne de vidéos de propagande “selfie” niant la détention massive de Ouïghours chinois. Découvrez les coulisses de leur enquête, révélée lors de la conférence de data journalisme NICAR.

Début 2021, des milliers de selfies vidéo réalisés dans la province du Xinjiang ont inondé les réseaux sociaux. On y voyait, selon toute vraisemblance, des hommes et des femmes de la communauté ouïgoure nier catégoriquement ce que des mouvements de défense des droits humains et des journalistes d’investigation en occident avaient révélé : que la minorité musulmane ouïgoure de cette région était soumise à une répression importante de la part du gouvernement ainsi qu’à des travaux forcés.

Quoi de plus crédible, en apparence, que des coiffeuses, des mécaniciens ou encore le personnel d’un magasin de vêtements, membres du groupe victimisé, accusant spontanément – apparemment – des journalistes et des diplomates occidentaux d’avoir exagéré leur détresse ?

Or c’est en vertu de cette “crédibilité” que plus de 5 000 vidéos – dont la diffusion est amplifiée par des bots – ont été réalisées, d’après l’enquête menée sur quatre mois par des reporters de ProPublica et du New York Times. L’équipe a découvert que ces vidéos étaient en fait le produit d’une campagne d’influence coordonnée et menée par l’Etat chinois, qui a ensuite été diffusée de manière très efficace sur les plateformes occidentales. Cette campagne a probablement exploité à nouveau un grand nombre des personnes figurant dans ces vidéos et dont les déclarations ont été scénarisées : au moins 600 de ces documents contenaient la même expression en ouïgour qui signifie “complètement absurde” et on retrouvait dans des centaines d’autres vidéos des formules récurrentes comme “je suis né.e et j’ai grandi” et “nous sommes très libres”.

L’équipe de reporters a mis en garde contre la possible montée de ces campagnes de désinformation massives par des régimes autoritaires qui utilisent “de simples citoyens” apportant des “témoignages” scénarisés, parfois sous la contrainte. Par exemple, verra-t-on bientôt “de simples citoyens ukrainiens” prétendre qu’ils se réjouissent de l’invasion russe, ou des familles de soldats russes affirmant qu’elles soutiennent la guerre ?

Anatomie d’une campagne de désinformation par selfies

Image : Screenshot

Dans le cadre d’un atelier sur ce sujet qui a eu lieu à l’occasion de la conférence NICAR22 sur le data journalisme organisée par l’ONG Investigative Reporters & Editors, les principaux journalistes qui ont travaillé sur le projet du Xinjiang, les spécialistes des données Jeff Kao (ProPublica) et Aaron Krolik (The New York Times), ont évoqué les outils et les techniques qu’ils ont utilisés pour démêler l’écheveau de cette campagne de propagande. Leur équipe, qui comprenait aussi les journalistes Raymond Zhong et Paul Mozur, a également réalisé le reportage intitulé “Comment la Chine a censuré le coronavirus”, qui faisait partie d’un projet plus large couronné par le prix Pulitzer, dans la catégorie service public, en 2021.

Dans leur sujet sur le Xinjiang, ils présentent la campagne de propagande comme “l’une des initiatives les plus élaborées que la Chine ait prises pour influencer l’opinion internationale” et l’utilisation de “témoignages” comme étant révélatrice d’un mouvement de bascule “plus astucieux” vers une désinformation crédible.

Jeff Kao a précisé que la négation des violations des droits humains des Ouïgours était le thème commun à ces vidéos, mais il a ajouté que l’équipe avait découvert deux sujets principaux de désinformation dans cette campagne et trois étapes dans son mode opératoire :

Les premières vidéos dénonçaient la déclaration du secrétaire d’Etat américain sortant, Mike Pompeo, qui avait estimé le 19 janvier 2021 que la répression contre les Ouïgours constituait un “génocide”.
Un deuxième lot important de vidéos, dont les plus anciennes remontent au mois de mars 2021, condamnait les marques de vêtements occidentales qui boycottaient l’industrie du coton du Xinjiang en raison de préoccupations relatives au travail forcé.
La campagne a commencé en demandant à des individus ciblés des selfies vidéo scénarisés pour une appli d’info contrôlée par le Parti communiste local appelée Pomegranate Cloud, auxquels des sous-titres en chinois ont été ajoutés.
Des agents gouvernementaux ont ensuite peaufiné les clips en insérant des sous-titres en anglais et des codes pour qu’ils puissent échapper aux filtres anti-spam occidentaux.
Le réseau les a ensuite disséminés sur Twitter et YouTube avec des bots et des comptes Twitter que Jeff Kao appelle des “comptes entrepôts”, créés dans le seul but d’héberger et de booster des vidéos. L’enquête a identifié 300 comptes de ce type sur Twitter.

Les reporters ont révélé que deux outils sophistiqués ont joué un rôle prépondérant pour leur enquête : l’outil d’étiquetage d’image payant Google Cloud Vision (GCV) et un gestionnaire de téléchargement de ligne de commande gratuit, en source ouverte, youtube-dl. Ils ont insisté sur le fait qu’au cours de l’année écoulée, ce dernier est devenu encore plus performant pour les recherches effectuées par les journalistes. Ils ont aussi utilisé des techniques de codage et des outils de pointe pour reconstituer, par ingénierie inverse, l’appli pour Android Pomegranate Cloud, qui est en source fermée, afin de pouvoir rechercher les clips originaux.

Les reportages traditionnels peuvent aussi révéler une propagande par selfies

Une leçon importante qui a été tirée de cet atelier, c’est qu’une version réduite mais tout aussi efficace de ce projet aurait pu être réalisée manuellement, en appliquant simplement une série de principes d’analyse (voir ci-dessous) et en alternant entre les chaînes de YouTube et de Twitter, sans avoir besoin de compétences en “scraping” automatisé ni en codage.

Aaron Krolik a déclaré que c’est le nombre de vidéos qui a fait la différence : l’équipe a été contrainte d’utiliser des outils automatisés, parce qu’elle a décidé de traiter et d’analyser l’intégralité des 5 000 vidéos – les exemplaires uniques et en double – de la campagne, plutôt que de se contenter d’un échantillon de quelque 200 vidéos, publiées au début de la campagne, qui auraient pu être analysées manuellement et qui auraient suffi pour démontrer qu’il s’agissait d’une propagande.

Les reportages traditionnels, ajoutent-ils, peuvent aussi permettre d’identifier les organisateurs de la campagne.

Par exemple, les reporters peuvent tout simplement essayer de téléphoner aux “témoins”. Dans un cas particulier, un journaliste du projet a appelé un homme qui “témoignait” dans une vidéo, un concessionnaire de véhicules d’occasion dont l’entreprise figurait en arrière-plan. L’homme en question a tout de suite reconnu que les autorités locales avaient produit sa vidéo. “Pourquoi ne demandez-vous pas à la direction du département propagande?”, a ajouté cet homme. Il a même fourni le numéro de téléphone de ce service.

Après avoir tenté à de nombreuses reprises de relever les “empreintes” des vidéos grâce aux arrière-plans, l’enquête a fini par aboutir, en transcrivant les sous-titres des vidéos et en repérant ensuite des récurrences dans les textes, a ajouté Aaron Krolik.

Il a aussi indiqué que Twitter a rapidement supprimé les comptes de la campagne quand son équipe a signalé leurs URL à la plateforme, plusieurs semaines avant la parution du reportage. Aaron Krolik a laissé entendre que le fait que les plateformes, qui ont un accès privilégié à certains paramètres, suppriment les vidéos et les comptes que les journalistes leur signalent peut être vu comme une confirmation supplémentaire du caractère nocif de ces comptes.

Image tirée d’un tweet aujourd’hui supprimé comprenant l’une des 3 000 vidéos uniques – et un total de 5 000 clips – de la campagne de désinformation de 2021 sur le Xinjiang. Ces messages étaient souvent caractérisés par des erreurs dans le texte — par exemple, “object Object” (“objet Objet”) — et par des techniques utilisées pour échapper aux filtres anti-spam de la plateforme, comme les cinq caractères chinois surlignés en jaune. Image : Screenshot

Comment repérer une campagne de désinformation par “selfies” orchestrée par l’Etat

Des “témoignages” utilisant un langage scénarisé ou des séquences verbales pratiquement identiques.
Des vidéos de bonne facture, en langue locale, reproduites sur de nombreuses chaînes, comportant des sous-titres en anglais sur les plateformes occidentales.
Des arrière-plans qui se ressemblent étrangement. (Jeff Kao et Aaron Krolik n’ont jamais trouvé de vidéos différentes tournées dans le même magasin, mais ils ont découvert que les portants et les murs des magasins de vêtements, par exemple, étaient particulièrement appréciés comme arrière-plan pour les “témoignages” réalisés).
Une courte succession de symboles ou de caractères bizarres à la fin des tweets et des retweets, comme des parenthèses et des symboles de pourcentage. Par exemple, un grand nombre de tweets de la campagne du Xinjiang se terminaient par cinq caractères chinois apparemment dénués de signification et censés échapper aux filtres anti-spam, et qui en sont venus à représenter la signature de la campagne.
Une avalanche soudaine de “témoignages” avec des contenus similaires.
Des clips vidéo sur le même sujet, d’environ la même durée – de 80 à 90 secondes, par exemple.
Des arrière-plans de vidéos qui, “comme par hasard”, montrent des slogans de propagande. Au moins un “témoignage” du Xinjiang a été enregistré devant une banderole sur laquelle on pouvait lire “Happiness comes out of working” (“Le travail rend heureux”). Un slogan, selon Aaron Krolik, qui rappelle de façon inquiétante la propagande nazie.
Des erreurs de Javascript dans les tweets — comme “object Object” — ou des traces de code informatique dans les espaces réservés au contenu.
Des déclarations invraisemblables : par exemple, des universitaires et des personnalité du monde des affaires, qui sont bien placés pour connaître les faits au sujet d’une question d’actualité étayée par les médias ou par la communauté concernée, mais qui nient purement et simplement l’existence du problème.
Des comptes Twitter qui comprennent un grand nombre de vidéos sur le même sujet mais qui n’ont que quelques followers. Il peut s’agir de “comptes entrepôts”, consacrés à la diffusion de la propagande. “Posez-vous la question suivante : ‘Où ce compte qui n’a que cinq followers trouve-t-il toutes ces vidéos ?’”, conseille Jeff Kao.

“Le simple fait de faire défiler Twitter et de naviguer est utile”, conclut Jeff Kao.

Mais il a insisté sur le fait que des compétences linguistiques et de bonnes connaissances culturelles sont cruciales pour pouvoir percer à jour des “témoignages” coordonnés. “Jamais je ne ferais une telle enquête sans l’aide d’une personne qui parle cette langue et qui connaît le contexte dans lequel ces vidéos ont été tournées”, a indiqué Jeff Kao. “Sinon, vous pourriez vous couvrir de ridicule si vous dites : ‘C’est une vidéo de propagande’ et qu’il s’avère qu’il s’agit simplement d’un spot publicitaire pour un produit alimentaire”.

Aaron Krolik a indiqué qu’au départ, l’équipe a recherché des vidéos tournées au même endroit, ou bien des acteurs professionnels qui tenaient le même discours dans différents lieux – des schémas de désinformation traditionnels – et ils n’ont rien trouvé. En revanche, ils ont découvert un projet de propagande bien plus ambitieux : des milliers de gens ordinaires ont été recrutés individuellement pour produire des vidéos uniques, scénarisées, qui ont ensuite été parachevées puis disséminées sur des plateformes occidentales.

Conseils pour enquêter sur les campagnes de propagande par selfies

L’équipe de ProPublica et du New York Times recommande de procéder par étapes pour enquêter sur de telles campagnes de propagande qui reposent sur des “témoignages” :

Une fois que vous avez identifié les vidéos suspectes, disséquez les comptes et les chaînes qui les hébergent — et analysez en direct les campagnes virales qui se déroulent en comparant vos notes avec vos collègues via une messagerie de groupe. Demandez de l’aide aux membres de votre équipe qui connaissent la langue et le contexte culturel des vidéos.
“Cliquez ici et là” entre les plateformes et consignez comme filtres de “scraping” des indices comme des successions étranges de caractères, des contenus identiques et des heures d’affichage similaires par différents comptes.
Téléchargez immédiatement les vidéos suspectes : en effet, elles sont souvent supprimées rapidement par le titulaire du compte ou par la plateforme, qui peut aussi en limiter l’accès. Essayez youtube-dl si vous maîtrisez les compétences de base en ligne de commande, cet outil étant désormais capable de faire un “scraping” efficace. D’autres journalistes recommandent des sites de téléchargement faciles à utiliser comme twittervideodownloader.com qui ne nécessitent pas de connaissances en codage, mais ils recommandent de faire preuve de prudence : des sites tiers peuvent invoquer des réserves en matière de droits vis-à-vis de la plateforme.
Déterminez l’ampleur de la campagne. Combien de vidéos uniques ont été affichées et réaffichées, sur combien de plateformes, et dans quel laps de temps ?
Si vous travaillez sur une appli non publique, comme Pomegranate Cloud, essayez de repérer les sections consacrées à la campagne. L’équipe du projet sur le Xinjiang a été surprise de découvrir que Pomegranate comportait une section consacrée à la désinformation sur l’industrie du coton. Jeff Kao a fait remarquer que, souvent, de telles applis ne demandent pas d’authentification ou de connexion rigoureuse, et que des clés dans l’appli peuvent donner aux journalistes spécialistes des données des points d’accès pour créer leurs propres outils de “scraping”.
Explorez les métadonnées sur les vidéos pour repérer les noms et les dates d’affichage.
Convertissez les vidéos en captures d’images représentatives en utilisant Google Cloud Vision ou les outils de conversion que vous maîtrisez le mieux.
Relevez les “empreintes” des captures de vidéos — en particulier celles qui sont trop nombreuses pour être examinées manuellement — avec des outils de reconnaissance optique de caractères (ROC) comme Google Cloud Vision. Aaron Krolik a expliqué que cette API (interface de programmation d’application) d’intelligence artificielle utilise la ROC pour annoter des vidéos de façon efficace et pour convertir leurs caractéristiques en texte pour pouvoir rechercher des termes particuliers. Autre conseil : relevez les “empreintes” rapidement. En effet, Aaron Krolik a fait remarquer que de tels outils peuvent mettre leur algorithme à jour pendant votre manœuvre, ce qui risque d’altérer quelque peu vos résultats.
Groupez les vidéos selon les caractéristiques de leurs “empreintes”. “Nous n’avons pas eu le temps de visionner 5 000 vidéos de deux minutes”, a expliqué Jeff Kao. “Par conséquent, il est pratique de constituer des groupes en fonction des caractéristiques.” Dans le cadre de ce projet, Aaron Krolik a utilisé l’outil Google Cloud Vision pour envoyer à Jeff Kao des fichiers recensant des caractéristiques comme “salon de coiffure”, “extérieur arboré”, “une personne devant des vêtements” ou “il y a un marché”. Jeff Kao a ensuite pu transformer le texte du document en données utiles et a eu recours à des algorithmes sophistiqués de comparaison d’ensembles comme MinHash et LSH pour les traiter.
Créez et analysez les transcriptions de toutes les vidéos comportant des sous-titres en vous servant d’une technique manuelle ou du logiciel qui vous convient. (Pour ce projet, une série d’outils comme FFmpeg, ImageMagick et Detect Text de Google a été utilisée.)
Pour les projets automatisés : recadrez les images autour des sous-titres et assemblez verticalement les images ainsi obtenues. Un conseil : puisque certains logiciels de ROC facturent à l’image, Aaron Krolik recommande d’assembler un grand nombre d’images recadrées autour des sous-titres et d’en faire une seule image composite à soumettre pour le traitement afin de réduire les coûts.
Éliminez, avec un filtre de mots clés, les vidéos qui, a priori, ne font pas partie d’une campagne. Identifiez un ou deux mots clés cruciaux de la campagne — comme “Pompeo” et “coton” dans le cas du projet sur le Xinjiang — et écartez les vidéos qui ne mentionnent ni l’un ni l’autre en faisant une recherche manuelle ou avec des logiciels de ROC.
Partagez les URL de la campagne de propagande avec les plateformes de réseaux sociaux avant publication, et recensez les comptes qu’elles suppriment.

“Quand vous voyez quelque chose d’étrange dans une vidéo, essayez d’imaginer ce que cela pourrait cacher”, a conseillé Jeff Kao. “Bien sûr, il pourrait s’agir simplement d’un villageois heureux, mais quand vous voyez un schéma récurrent se dessiner, une nouvelle piste se dégage.”

Il a ajouté : “Il nous a semblé très curieux qu’il y ait autant de vidéos au contenu si semblable. On aurait pu en rire, si tout cela n’était pas aussi perturbant.”

Ressources supplémentaires

Ce que l’application Baidu peut nous révéler sur les centres de détention ouïghours

Quatre techniques pour authentifier des images sur votre smartphone

Six techniques pour vérifier l’authenticité d’un document

Rowan Philp est journaliste à GIJN. Auparavant, Rowan a été reporter en chef pour le Sunday Times sud-africain. En tant que correspondant à l’étranger, il a réalisé des reportages sur l’actualité, la politique, la corruption et les conflits dans une vingtaine de pays du monde entier.

Global Investigative Journalism Network -