Rapprocher la science et le développement

Les données, une mine d’informations pour les journalistes
  • Les données, une mine d’informations pour les journalistes

Crédit image: Pablo Rojas, Wellcome Images

Lecture rapide

  • Le journalisme de données signifie trouver des histoires en passant en revue des ensembles de données importants

  • Les outils en ligne gratuits rendent facile la manipulation, l’interprétation et la présentation de l'information numérique

  • Cela peut sembler inquiétant, mais le journalisme de données est là pour durer

Shares
Les collègues me demandent souvent ce qu’est le journalisme de données… Ils sont désorientés par le fait qu’il ait besoin d’une appellation particulière : tous les journalistes n’utilisent-ils donc pas des données?
  Le terme est un raccourci pour «journalisme de base de données» ou «journalisme centré sur les données», à partir desquelles les journalistes trouvent des sujets, ou des angles pour des sujets à l'intérieur de grands volumes de données.

Cette pratique du journalisme se rapproche du journalisme d'investigation, dans la mesure où elle exige beaucoup de recherche, allant parfois à l’encontre de la volonté de l’opinion. Elle peut aussi faire appel à la maîtrise de la visualisation des données ou la datavisualisation, car elle nécessite une collaboration étroite entre les journalistes et les spécialistes des outils numériques, pour réfléchir aux meilleures façons de présenter les données.

Alors pourquoi se préoccuper des tableurs et des outils de visualisation? Dans sa forme la plus basique, l'ajout de données peut conférer à un sujet une nouvelle dimension factuelle. Mais le fait de se plonger dans les ensembles de données peut également faire ressortir de nouveaux sujets ou de nouveaux aspects qui n'auraient pas, sans cela, fait surface.

Le journalisme de données peut aussi parfois permettre de raconter des histoires complexes plus facilement ou de façon plus claire que s’il ne fallait compter que sur les seuls mots. Il est donc particulièrement utile pour les journalistes scientifiques.

Il peut sembler intimidant si vous avez été formé pour la presse écrite ou audiovisuelle. Mais je vais vous apprendre de nouvelles techniques et vous montrer le fonctionnement de quelques excellents outils numériques. Vous pourrez ainsi rapidement trouver vos marques en tant que journaliste de données.

Par où commencer?

Comme pour toutes les formes de journalisme, les sources à l’origine des idées qui feront les sujets peuvent être nombreuses. Par exemple, vous pourriez ne pas être convaincu par une statistique et être tenté de fouiller au-delà des données brutes. Ou vous pourriez devoir répondre à une question, comme par exemple ; dans quelle mesure le financement de la recherche scientifique a changé au Royaume-Uni?

L’une des différences entre le journalisme de données et les autres formes de journalisme est que ce n’est parfois qu’après le début de l’enquête que vous aurez une idée du sujet que vous traiterez. Cela ne signifie pas que vous devez vous saisir de n’importe quelle donnée ancienne pour espérer trouver un sujet, mais plutôt que le sujet découle de ce que les données vous racontent. Le Datablog de cette présentation dans  le Guardian donne une idée du flux de travail existant dans ce type de journalisme.

Dans ce contexte, comment choisir ce dans quoi se plonger? Familiarisez-vous avec les types et sources de données, placez-les dans vos  «favoris» et sortez-les au moment opportun, lorsque vous connaîtrez les dates des publications et des conférences.
Il est préférable de débuter avec des projets modestes, en particulier pendant la période d’apprentissage du processus de traitement des données et de tous les outils disponibles. Votre principal défi sera probablement le temps, nécessaire au traitement des données. Peter Aldhous, le chef du bureau de San Francisco du New Scientist, a rédigé un manuel sur la façon d'aborder les projets de journalisme de données scientifiques. Le Manuel du journalisme de données, donne également des conseils sur la façon de commencer.

La recherche et l'accès aux données

“Les faits indiquent que le journalisme de données est le journalisme du futur.”

Sandra Crucianelli

Les experts en journalisme de données disent que le rôle des journalistes évolue, passant du recueil et de la collecte d’informations éparses au traitement de l'information dans «l'ère de l'abondance».

 

Les données pourraient être nombreuses, mais certaines sont plus faciles à obtenir que d'autres. Les gouvernements commencent à comprendre l'importance de publier les données - y compris les résultats de la recherche -, mais cela varie d'un pays à l'autre, et même si un gouvernement croit dans la nécessité de la transparence, il peut ne pas posséder les systèmes adéquats qui permettent de rendre les données accessibles.

Certains pays, comme le Kenya, sont proactifs dans la publication des données, tandis que dans d'autres pays il faut en faire la demande, parfois par l’intermédiaire d’instruments tels que le India’s Right to Information Act.

Des organismes internationaux comme la Banque Mondiale publient des données, et des projets comme Gapminder et Google Public Data Explorer recueillent des données de diverses organisations. Pour les journalistes scientifiques ou spécialisés dans la santé, clinicaltrials.gov est un registre des données des essais cliniques. Quant aux journalistes spécialisés dans l’environnement ou les sciences de la terre, ils peuvent par exemple avoir accès aux informations de l'US Geological Survey.

Vous pourriez même trouver certaines données prêtes à l’emploi. Data drager, qui est le fruit d’une collaboration entre Internews et l'initiative de données ouvertes du gouvernement du Kenya, propose des liens vers les rapports de santé du Kenya et des infographies sur des sujets de santé que vous pouvez télécharger et utiliser pour vos sujets.

Le web pullule également de données – il suffit simplement pour les trouver de perfectionner vos compétences de recherche. Parfois, il vous suffit de rechercher un terme accolé au mot «données», ou d'utiliser un moteur de recherche universitaire spécialisé comme Google Scholar Scirus. Les ressources web «sémantique», comme <a data-cke-saved-href="http://www.wolframalpha.com/" href="http://www.wolframalpha.com/" rel="nofollow" "="">Wolfram | Alpha, qui recherche à partir de données supplémentaires, et pas seulement les mots-clés dans la page, sont également utiles.

L’outil de recherche avancée de Google vous permet d'affiner vos résultats par extension de domaine, et vous aide à chercher des données universitaires ou gouvernementales, ainsi que le format de fichier - comme les fichiers Excel - dans lequel vous êtes le plus susceptible de trouver des tableaux de chiffres ou des statistiques. Les tableaux et graphiques sont souvent téléchargés sous forme d'image, de sorte que votre cible de données devrait inclure Flickr et Google Images.
Vous pouvez même récupérer les données qui ont été supprimées à partir du Web, mais étaient «en cache» ou enregistrées en capture d’écran.

Essayez l'Internet Archive et son Wayback Machine pour récupérer d'anciens fichiers ou des URL  tombés en désuétude.

Les médias sociaux peuvent également être une source de données. Des outils tels que SocialMention, 48ers, Twitterfall Addictomatic, BoardReader et Whostalkin vous permettent d'effectuer des recherches par nom, par sujet, par temps et par géo-référence. Un exemple intéressant de révélation d’informations par l’intermédiaire des réseaux sociaux est le projet Eye on the Bailout de ProPublica, une organisation de journalisme d'investigation, qui a utilisé les applications de veille des médias sociaux pour informer les journalistes sur les nouvelles données relatives à ce qui était arrivé à l’argent qui avait servi à renflouer les banques américaines en 2008.

Rappelez-vous - c'est une bonne habitude que créer un renvoi vers, ou indiquer les sources de vos données.

Le traitement des données

Vous avez trouvé les données, mais pouvez-vous les utiliser? Vous aurez besoin de les importer dans un tableur comme Excel ou Google Drive, alors téléchargez les données si possible dans un format informatique ouvert, ou CSV (comma separated value).

Vous pourriez ouvrir un tableau dans un fichier PDF ou un fichier image JPEG. Essayez un convertisseur de fichiers comme Zamzar pour les faire entrer dans des tableurs. Le logiciel de reconnaissance à caractère optique peut également être d'une grande utilité : Free Ocr est simple et gratuit. En dernier recours, vous pourriez devoir entrer les données manuellement, ce qui est fastidieux et peut être une source d'erreurs.

D’où qu’elles proviennent, vos données devront probablement être «nettoyées» pour être utilisables. Cela peut nécessiter une réorganisation et la suppression de données dont vous n'aurez pas besoin, à l'aide d'outils tels que OpenRefine (anciennement Google Refine) pour rendre les données plus cohérentes (regarder les manuels vidéo pour des conseils sur ce que ce nettoyage peut signifier). Les journalistes scientifiques, à défaut des autres, devraient avoir accès à des données scientifiques bien formatées qui nécessitent le moins de nettoyage possible.

Vous aurez aussi besoin de commencer à faire des traitements de base. Vous pourriez trier les données du plus petit au plus grand, ou par emplacement. Vous chercherez peut-être à calculer des moyennes, ou bien assembler ou comparer deux ensembles de données.

Traiter les données comme une «source»: vous poser les questions que le public poserait. Vous poser un grand nombre de questions - la réponse pourrait ne pas être celle qui vous serait venue spontanément à l’esprit. Par exemple, un tableur recensant les rétractations journalistiques pourrait indiquer une hausse dans la détection des fraudes, mais il faut aussi se demander si d’autres interprétations sont possibles.

Réfléchissez bien à vos résultats : sont- ils plausibles? Il est préférable de vérifier et revérifier les calculs. Ne gâchez pas votre réputation pour une erreur de base.

Vous pouvez renforcer vos conclusions ou identifier de nouvelles questions grâce à des analyses statistiques simples. Par exemple, vous pourriez repérer plus de tempêtes catastrophiques dans votre pays chaque année pendant 20 ans. Mais est-ce un résultat significatif ou simplement une variation naturelle? Des outils tels que le R-Project et le RStudio peuvent vous aider pour en juger. Vous pourriez également vouloir confirmer vos conclusions auprès d’experts ou d'autres journalistes de données expérimentés, en particulier lorsque vous êtes débutant.

Présentation des données

Votre présentation dépendra de votre sujet. Il peut y avoir très peu de chose à présenter, ou vous pourriez avoir travaillé dur pour obtenir un chiffre unique mais important à signaler dans un bulletin d’informations conventionnel, par exemple que votre gouvernement a dépensé la moitié de ce qu'il avait promis dans le secteur de la science.

Ou alors vous pouvez utiliser la visualisation de données comme partie intégrante de votre sujet. Cette enquête dans le Seattle Times aux Etats-Unis combine une fonction écrite avec comme sources des graphiques, des cartes et des documents. L’une d’entre elles est une carte interactive, les éléments de ce genre peuvent être utilisés pour des sujets plus ambitieux et pour des projets, ou de manière autonome, comme cette représentation des causes de la mort présentée par le journal britannique The Guardian.

Les outils en ligne comme Tableau Public ou Many Eyes peuvent permettre de visualiser les données de différentes manières, alors que Google Fusion Tables, GeoCommons et Indiemapper produisent de bonnes cartes avec des données sur la longitude et la latitude ou des données SIG plus complexes. Beaucoup de ces outils permettent également d'ajouter un calque d'animation pour l’échelle des temps, par exemple.

Parfois, l’important n’est pas seulement la présentation des données, mais de laisser vos lecteurs comprendre ce que cela signifie pour eux. Ce projet ProPublica montre aux utilisateurs si leur médecin reçoit de l’argent d’entreprises pharmaceutiques, tandis que ce sujet du Texas Tribune vous montre comment l'argent public est dépensé aux Etats-Unis.

Allant plus loin, ce projet du Guardian demande aux lecteurs de l’aider à analyser les données sur les dépenses publiques au Royaume-Uni. Ce type de projet, appelé une «app' d’info », nécessite une collaboration entre les journalistes et les programmeurs pour concevoir et construire des applications qui traitent et analysent de nombreuses variables dans les grandes bases de données ou parmi les ensembles de données.

J'ai participé à une « app’ d’info » du journal argentin La Nación dans le cadre de ma bourse Knight International Journalism Fellowship. Cette application utilise les informations du recensement national de 2001 à 2010, et laisse les gens étudier la façon dont la démographique a changé dans leurs régions.

Le site Information is Beautiful a des exemples de représentations de données créatives, et montre comment le travail avec votre équipe de publication numérique ou graphique peut être productif.

Vous pouvez avoir besoin de persuader vos éditeurs de vous laisser du temps pour le journalisme de données. Cela devient plus facile quand les résultats sont visibles, et ce rapport (que j'ai co-écrit) sur l'intégration du journalisme de données dans les salles de rédaction peut aussi être utile.
Cela peut ressembler à un grand point d’interrogation, mais tout indique que le journalisme de données est le journalisme du futur. Si vous pouvez investir du temps, vous obtiendrez non seulement de meilleurs sujets, mais vous servirez mieux vos lecteurs et l'intérêt public.


Sandra Crucianelli est boursière du Knight International Journalism. Elle est journaliste d'investigation et instructrice, spécialisée dans les ressources numériques et le journalisme de données. Elle est la fondatrice et la rédactrice en chef de Sololocal.info, un magazine en ligne d’informations hyperlocales de Bahía Blanca City, en Argentine. Pour plus d’informations : http://www.visualcv.com/sandracrucianelli

Références

Lien vers une animation sur le journalisme de données en Argentine
Republier
Nous vous encourageons à reproduire cet article en ligne ou sur support papier. La reproduction est libre de droit, suivant les termes de notre licence Creative Commons. Nous vous prions cependant de suivre ces directives simples :
  1. Vous devez créditer nos auteurs.
  2. Vous devez créditer SciDev.Net — dans la mesure du possible, veuillez insérer notre logo, avec un rétrolien vers l’article originel.
  3. Vous pourriez aussi simplement publier les premières lignes de l’article et ajouter ensuite la mention: "Veuillez lire l’intégralité de l’article sur SciDev.Net", avec un lien vers l’article originel.
  4. Si vous souhaitez aussi reprendre les images publiées avec cet article, veuillez vérifier avec les détenteurs de droits d’auteur que vous êtes autorisés à les utiliser.
  5. Le moyen le plus facile de reproduire l’article sur votre site est d’intégrer le code ci-dessous. 
Pour plus d’informations, veuillez consulter notre page media et nos conseils pour la reproduction.