OWNI

Chicago: le parrain du datajournalisme?

Mael Inizan — Mon, 20 Jun 2011 09:06:57 +0000

[Liens en anglais sauf mention contraire] Sociologues au Latts [fr], le Laboratoire Techniques, Territoires et Sociétés de l’Université Paris-Est Marne-la-Vallée, Sylvain Parisie et Éric Dagiral ont séjourné trois semaines à Chicago en septembre dernier, pour rencontrer les acteurs locaux du datajournalisme. Plus connue à cause d’Al Capone et des Incorruptibles, “la ville du crime” est l’une des villes pionnière en Amérique du Nord en matière d’utilisation des bases de données dans la production de contenu journalistique. Des premiers hackers-journalistes à la News Application Team du Chicago Tribune, en passant par ChicagoCrime.org : Sylvain Parisie revient pour Silicon Maniacs sur 15 ans de datajournalisme à Chicago.

Avant de nous intéresser à Chicago, peux-tu rapidement revenir sur la naissance du datajournalisme aux États-Unis ?

L’idée d’utiliser des bases de données comme support à la production d’information apparaît en Amérique du nord à la fin des années 1960, notamment sous la houlette de Philip Meyer. C’est un pionner qui écrit dès 1971 un manuel, The New Precision Journalism, dans lequel il explique que les journalistes doivent utiliser des ordinateurs, mais également construire des bases de données dans un tableur pour produire l’information. Son idée est de s’inspirer des outils statistiques des sciences sociales pour produire une information en rupture avec les préjugés. Les bases de données viennent appuyer le journalisme d’investigation. En 1967, il réalise ainsi une première enquête sur des émeutes raciales dans la ville de Détroit. En utilisant un ordinateur IBM disponible à Harvard, il montre, chiffres à l’appui, que contrairement a ce qu’on pensait à l’époque les Afro-américains étudiant à l’université avaient autant de chances que les autres de participer aux émeutes.

Comment ces méthodes d’investigation vont-elle se généraliser ?

Même si le manuel de Philip Meyer remporte un certain succès, ce modèle de journalisme ne se diffuse pas véritablement avant la deuxième moitié des années 1980. Plusieurs journalistes remportent alors des prix Pulitzer avec des enquêtes qui s’appuient sur l’utilisation de bases de données. Je pense notamment à Bill Dedman, qui obtient le prix en 1989 pour une série d’article, The color of money, sur les questions de discriminations raciales pour l’obtention de prêts bancaires.

À l’époque, l’utilisation de bases de données reste encore anecdotique. Elles sont surtout utilisées par des journalistes isolés, pour faire des coups et se faire connaître. C’est seulement à partir des années 1990 que le journalisme de données change progressivement de statut. Cette évolution est portée par l’apparition d’organisations professionnelles qui essayent de commercialiser des bases de données auprès des rédactions. La plus connue d’entre-elles est la Nicar, qui se spécialise dans ce qu’on appelle à l’époque le CAR, le Computer Assisted Reporting. Ils se proposent de collecter des bases de données, de les compiler, et de les nettoyer pour les vendre à des journaux. Ils offrent également des formations aux journalistes. À cette époque, ce spécialiste des ordinateurs et des bases de données qu’est le Computer Assisted Reporter n’est pas vraiment reconnu dans les rédactions.

C’est à partir des années 2000 que le journalisme de données prend de l’importance…

La véritable rupture ne se fait pas avant le milieu des années 2000. Les grands titres comme le New York Times, le Los Angeles Times, le Chicago Tribune et le Washington Post ont déjà commencé à recruter des spécialistes, mais c’est la récupération de l’ensemble des données concernant la guerre, qui popularise ces méthodes. En 2006 par exemple, le Washington Post met en ligne l’application The Faces of the Fallen, qui tient la comptabilité de tous les militaires tués en Irak et en Afghanistan. C’est une grande base de données dans laquelle on peut voir le visage des militaires tombés au combat, savoir où ils sont nés, où ils ont grandi, connaître les circonstances et la date de leur mort. À la même époque le Washington Post publie également des données qui permettent de suivre l’activité des parlementaires américains.

Vous avez concentré votre étude sur la ville de Chicago. Retrouve-t-on ces différentes étapes dans l’essor du datajournalisme ?

Il nous est apparu qu’il y a eu véritablement trois temps dans le développement du journalisme de données à Chicago, et plus largement aux États-Unis. Un premier temps qui concerne essentiellement les organisations de presse traditionnelle, entre la fin des années 90 et le début des années 2000, avec des journalistes isolés qui utilisent des bases de données. Un second temps pendant lequel on voit apparaître de nouveaux acteurs, issus du développement web et du logiciel libre. Et enfin, un troisième temps marqué par la constitution d’équipes dédiées au sein des rédactions des grands journaux.

Qui sont ces journalistes isolés qui utilisent les premiers des bases de données ?

Nous avons rencontré Darnell Little, un pionnier du journalisme de données, à Chicago. C’est une personne fascinante, qui a une histoire et un parcours atypique. Ingénieur de formation, il travaille d’abord pour l’opérateur américain ATT, avant de se reconvertir dans la presse, dans le milieu des années 1990. Il obtient un Master de journalisme à la North Western University et est embauché au Chicago Tribune en 1996, la semaine même où le site internet du journal est lancé. Au sein de la rédaction, il sera à l’origine de grandes séries d’investigations sur des sujets qui concernent souvent la justice sociale.

Il travaille en collaboration avec les journalistes. Son travail à lui consistait à essayer de trouver les grandes lignes, les angles et des idées d’articles pertinentes, en travaillant à partir des bases de données de l’État de l’Illinois ou de la ville de Chicago. Ce sont ensuite des reporters qui vont sur le terrain pour poursuivre l’enquête. C’est une tradition que l’on connaît très peu en France : un journalisme écrit, littéraire, mais qui repose énormément sur l’exploitation statistique et de bases de données.

Les journalistes arrivent souvent avec des idées préconçues sur les gens à interviewer, sur ce qui est pertinent sur un sujet donné. Darnell Little intervenait notamment pour montrer aux journalistes qu’ils partaient avec des idées reçues, en appuyant ses arguments sur des chiffres. Ça donnait parfois lieu à des relations un peu difficiles, d’autant plus qu’à l’époque le Computer Assisted Reporter n’est pas considéré comme une personne cool. Ce n’est pas un métier sur lequel on fantasme. C’est quelqu’un qui à des compétences extraordinaires, mais tellement particulières qu’il peut être rapidement ostracisé, isolé, en étant relégué au rang de simple technicien.

Comment ces data-journalistes vont-ils gagner en reconnaissance ?

À partir de 2004-2005, plusieurs initiatives émergent à Chicago. Cette fois-ci, elles ne concernent pas du tout les médias traditionnels, mais plutôt des startups, en marge du journalisme. On voit apparaître tout un ensemble de nouveaux acteurs issus du développement web: des militants pour l’ouverture des données, des informaticiens et des hackers. Ils essayent de construire quelque chose de nouveaux à l’intersection de la presse et de l’open data. Tout ces gens-là ont des pieds dans différents mondes: celui de la presse, du développement, parfois même des institutions, de la mairie. C’est notamment le cas d’Adrian Holovaty, le fondateur de Chicago Crimes en 2005, puis d’EveryBlock.

Qu’est ce que Chicago Crimes?

En 2005, Chicago Crimes est l’un des premiers mashups qui permet de géolocaliser sur une carte les données criminelles (homicides, agression, vol…), qui sont diffusées par le site du Chicago police département depuis 1996. Les données existaient, mais elles étaient classées d’une manière qui les rendait très difficiles à comprendre et à analyser. De plus, elles n’étaient disponibles que pendant deux semaines. Adrian Holovaty va « hacker » ces données. Il les interface sur une carte Google – ce qui est déjà en soit une performance puisque l’API de Google Map n’était pas encore ouverte à cette époque -, les archive, mais crée également de nouvelles catégories, pour les rendre plus exploitables. Il était dès lors possible d’afficher les crimes par zones d’habitation. À cette époque là, c’est un gros coup.

L’image des hackers s’améliore. Ils acquièrent un rôle social beaucoup plus ouvert, avec un message politique, citoyen. Ils veulent permettre à tout le monde d’accéder facilement à l’information et aux données. Adrian Holovaty est déjà un développeur reconnu dans la communauté. Avec Chicago Crimes, il se fait une réputation non seulement à Chicago, mais également en Amérique du Nord.

Il bénéficie d’une certaine légitimité vis-à-vis de la presse puisqu’il est également journaliste…

Au départ, c’est effectivement un journaliste. Il a notamment travaillé au Washington Post. La légitimité de ces acteurs vient également des fondations qui les soutiennent. La Knight Fondation, par exemple, a financé à hauteur de plusieurs millions de dollars Adrian Holovaty pour le développement de EveryBlock. Chicago Crimes était l’œuvre d’une personne, EveryBlock est celle d’une équipe.

Est-ce que tu peux expliquer ce qu’est EveryBlock ?

Là ou Chicago Crimes reprenait simplement les données policières, EveryBlock étend le principe. On a accès à un ensemble de données et d’informations relatives à sa situation géographique. Ça concerne évidement les crimes, les homicides, mais également, par exemple, les ouvertures de commerces, les transactions immobilières, les licences de débit d’alcool… EveryBlock agrège un ensemble d’informations disponibles en ligne et les centralise à l’échelle d’un quartier (« block »), d’une rue. C’est la même choses pour tous les avis concernant les restaurants du coin du quartier, ou des photos postées sur Flickr.

Pour ce type de site, toute la difficulté réside dans la récupération des données. Ils nous ont raconté à quel point c’était difficile, même à Chicago. Pour eux, l’enjeu est d’être en mesure d’avoir des données qui répondent à deux qualités : d’abord qu’elles soient soutenables, c’est à dire mises à jour régulièrement et toujours de même qualité, ensuite, qu’elles soient granulaires, c’est à dire qu’elles correspondent à un emplacement extrêmement précis dans un quartier, dans la ville. Contrairement à la France, ce modèle journalistique est totalement reconnu en Amérique du Nord. Le site s’est monté à Chicago et s’est rapidement étendu à d’autres villes avant d’être racheté par MSN en août 2009.

Comment ont réagi les médias traditionnels face à l’arrivée de ces nouveaux acteurs qui possèdent un savoir faire spécifique et qui les concurrencent sur un nouveaux terrain ?

En 2009 à Chicago, la situation était assez catastrophique pour la presse. Le Chicago Tribune est lui-même déclaré en faillite, fin 2008. Il se relève malgré tout et décide contre toute attente, mi-2009, de recruter des hackers-journalistes pour lancer une News Application Team de quatre personnes. Ces nouveaux journalistes viennent du monde de l’open data, du développement web et ont souvent une formation en journalisme. Ils sont recrutés pour faire des applications, de la visualisation et traiter des données. Ils doivent servir d’appui au journalisme d’investigation. Derrière cette News application Team, il y a donc un projet de journalisme ambitieux.
Les médias historiques ont une approche très différente du journalisme de données. Les journalistes traditionnels reprochaient souvent à des sites comme EveryBlock, le fait de simplement diffuser des données, sans les mettre en perspective. Dans la presse traditionnelle, on observe donc une forme de compromis : on mêle la mise à disposition des données, l’investigation et le cadrage journalistique. Le Chicago Tribune a par exemple réalisé une enquête sur les maisons de retraite, avec une série de papiers très fouillés sur les personnes victimes d’abus, mais également un moteur de recherche qui permet aux lecteurs de savoir quelles sont les caractéristiques des maisons de retraite dans lesquelles ils ont placé leurs parents ou leurs beaux parents. C’est également le même procédé qui a été employé dans une autre enquête du Chicago Tribune sur l’Agent Orange utilisé lors de la guerre du Vietnam.

Dans ce contexte de crise de la presse, la datajournalisme participerait donc à une certaine forme de re-légitimation du journalisme, en appuyant l’information sur des données chiffrées réputées plus objectives et ouvertes au lecteur…

Il y a de ça, en partie. Le datajournalisme permet de développer une certaine proximité avec le lecteur. On traite l’information à l’échelle des personnes individuelles, de leur quartier, voisinage. Le datajournalisme participe à un mouvement qui voudrait qu’une des solutions à la crise de la presse soit de renouveler l’intérêt des lecteurs en parlant de chose ultra-proches de lui. Là ou il faut tempérer, c’est que ces hackers-journalistes ont été recrutés pour assister les journalistes d’investigation. Ces formats sont loin d’être ceux qui font le plus d’audience. Mais, ils apportent beaucoup en terme de crédibilité et de notoriété, d’image pour le journal… C’est à la fois une composante hyperlocale, mais également une composante de prestige.

On ne peut pas s’empêcher de faire le parallèle avec la France. On assiste depuis quelques années à l’arrivée de nouveaux acteurs. Je pense par exemple au site NosDéputés.fr, dont l’objectif est de donner plus de transparence à l’activité parlementaire. Il y a également le site OWNI qui se revendique du hacking-journalisme…

Nos Députés.fr est effectivement porté par des gens qui viennent du développement web, du logiciel libre et qui ont une vraie implication citoyenne. Mais, il n’y a quasiment aucune connexion avec la presse, à part une enquête avec Médiapart et quelques partenariats très ponctuels. On est très loin des États-Unis où c’est le Washington Post lui-même diffuse les données sur le travail des sénateurs américains.

Le cas d’OWNI est très différent. D’abord, il est beaucoup plus récent. Cependant, c’est effectivement une tentative très originale de construire un pont entre le journalisme traditionnel et la mise à disposition des données. Évidement, on reste à la marge, mais cette fois ci on n’est plus en dehors du journalisme. Le prix remis en octobre dernier à OWNI par la Online News Association (ONA) participe à la reconnaissance de ce site, mais cette légitimité joue plutôt au niveau international pour l’instant.

Comment expliques-tu le manque d’investissement français dans le datajournalisme ?

Déjà, il n’y a pas en France de fondations pour l’innovation, qui soutiennent financièrement de tels projets innovants. Nous avons beaucoup d’aides à la presse en France, mais elles ne fonctionnent pas de la même manière et ne touchent pas les acteurs à la marge. Ensuite, la presse traditionnelle a été assez peu sensible au développement du datajournalisme. Mais, on peut être surpris. Ce serait totalement logique qu’un site comme LeMonde.fr se rapproche de NosDéputés.fr, par exemple.

Enfin une difficulté supplémentaire dans le cas français est le manque de disponibilité des données. Pour que le datajournalisme se développe, il faut d’abord faciliter l’accès aux données. Je prend l’exemple du Figaro : il y a quelques semaines, le titre a lancé une enquête concernant les maisons de retraites. Elle s’accompagne d’une visualisation [fr] dans laquelle ont peut parcourir, département par département, un classement des maisons de retraite. La différence entre le traitement de ce sujet par Le Figaro et le Chicago Tribune, c’est la méthode utilisée pour récupérer des données. Le Figaro a envoyé un questionnaire aux maisons de retraite. À Chicago, ce sont des statistiques de l’État de l’Illinois qui ont été croisées avec des données policières. Tout est dit. On ne peut pas avoir la même qualité des données quand on demande aux maisons de retraites de se positionner elles-même.

En France, les données disponibles sont essentiellement nationales. De ce qu’on a pu observer à Chicago, les récits qui fonctionnent le mieux sont ceux qui sont ancrés localement. C’est typiquement de genre de données qui est très difficile à collecter en France. C’est possible, mais ça demande énormément de temps et de travail.

Est-on encore loin du développement d’un modèle de datajournalisme à la française ?

Un des autres enseignements de notre enquête est la spécialisation des acteurs. Il y a des experts du traitement de données, mais également des personnes qui se spécialisent dans la récupération de données. On les appelle les « People Person ». Leur travail quotidien consiste à « harceler » les autorité pour récupérer des données exploitables. Étant donné la différence des cultures entre la France et les États-Unis, beaucoup de journalistes sont moins sensibilisés à la valeurs que peuvent représenter des données brutes. Je pense malgré tout qu’un mouvement est amorcé. Les journaux commencent à mesurer l’intérêt qu’il peuvent tirer de se positionner sur ces formats journalistiques.

>> Article initialement publié sur Silicon Maniacs.

>> Photo Flickr par alamodestuff.

Crowdsourçons le renouveau du journalisme

Nicolas Kayser-Bril — Sat, 09 Oct 2010 15:52:52 +0000

L’automne, c’est les jours raccourcis, la rentrée, les premiers rhumes… Mais c’est surtout l’ouverture du Knight News Challenge! Cette année, OWNI crowdsource les idées, afin de maximiser nos chances de l’emporter.

Comme tous les ans depuis 2006, la fondation Knight met en jeu plusieurs millions de dollars pour financer des projets de journalisme innovant. Parmi les précédents lauréats, on trouve des projets tels qu’Ushahidi, Spot.us ou Everyblock.

Cette année, le News Challenge s’est trouvé un cousin en Finlande, Uutisraivaaja. Ce concours, au nom difficilement prononçable mais doté de 250 000€, est financé par la fondation Helsingin Sanomat, dont l’objectif est de soutenir la recherche scientifique.

Ces deux concours mettent en avant l’imagination et la créativité. Aucune contrainte n’est imposée, sinon de proposer des projets journalistiques innovants et inattendus (et, pour Uutisraivaaja, que le projet débute en Finlande). La fondation Knight a le nez creux pour repérer les projets innovants. Elle a par exemple financé le datajournalisme dès 2007 avec Everyblock et l’info sur téléphone portable dans les pays en développement en 2008 avec Freedom Fone.

Les fondations ne financent pas des entrepreneurs ; elles contribuent au renouveau du journalisme. Ce cahier des charges suppose que les projets soient réutilisables par d’autres médias, si bien qu’elles exigent des participants que tout leur travail soit en creative commons et que le code en soit libre.

Cette année, la Knight recherche des projets dans trois domaines précis : Mobile, développement des flux de revenus et crédibilité. Le mobile puisqu’il constitue un canal de diffusion en forte croissance, les flux de revenus on s’en doute, et la crédibilité pour aider les journalistes à trier le vrai du faux à l’heure ou les rumeurs peuvent enfler en quelques heures grâce à la caisse de résonnance mondiale que sont les réseaux sociaux.

Plus on est de fous

Cette année, plutôt que de réfléchir aux projets dans notre soucoupe d’ivoire, nous vous demandons votre avis et vos conseils. Nous organisons ici un brainstorming collectif pour réfléchir ensemble aux projets que nous présenterons.

Nous proposons à tous ceux qui ont des idées mais pas le temps de les mener à bien ou les compétences en anglais nécessaires de les porter avec nous. Le but n’est pas de s’approprier les idées de la communauté. Au contraire, en les poursuivant ensemble, nous augmentons nos chances de succès dans un concours où jamais un projet français n’a été récompensé.

Publiez vos idées ou vos intutitions dans les commentaires ou sur Twitter @owni. Que vous vouliez mettre en place un système de distribution d’infos sur téléphone portable en Laponie ou que vous imaginiez vendre de l’info couplée à une production artisanale en Picardie, discutons-en ici!

Ce billet sera mis à jour avec nos idées tout au long de la semaine

Nanonews, proposé par CS: Blague ou pas, l’augmentation de la granularité de l’info à son maximum reste une piste à suivre. Itunes a fait exploser les albums en morceaux uniques. Peut-on imaginer dissocier demain les films, les reportages, les articles?

Data journalism : pourquoi les médias français ne s’y mettent pas ?

Caroline Goulard — Mon, 08 Mar 2010 10:39:24 +0000

Pourquoi les médias français se sont-ils si peu saisis du data journalism, à la différence des médias anglo-saxons ? Quelques éléments de réponses ont déjà été apportés : par Valérie Peugeot sur www.lavoixdudodo.info et par Elodie Castelli sur www.journalismes.info. Après les études de cas, je vous livre ici ma synthèse. L’occasion de vous faire partager les enseignements tirés de cinq entretiens, réalisés en janvier dernier avec Hubert Guillaud, Jean-Marc Manach et Charles Népote de la Fing, avec Fabrice Epelboin de RWW France et avec Nicolas Voisin de Owni.fr.

Comment expliquer le peu d’empressement des rédactions françaises à s’emparer du journalisme de données ? Plusieurs facteurs se combinent, certains relèvent des rédactions, d’autres de leur environnement

Côté rédactions :

Des rédactions en manque de moyens financiers…

Tout d’abord, côté rédactions traditionnelles, la plupart consacrent très peu de ressources à la R&D, et donc à du journalisme d’expérimentation, comme de la visualisation de données. La presse quotidienne n’en a tout simplement pas les moyens, les pure players difficilement. La presse magazine ou le secteur audiovisuel pourraient peut-être parier sur le journalisme de données, mais la crise économique ne les incite pas à de tels investissements.

Quelques exceptions néanmoins : l’Express.fr a recruté deux documentalistes pour réfléchir sur la structuration de données (plus d’info sur le blog d’Eric Mettout) ; France 24 mène un gros travail autour du Web sémantique au sein de son Lab (plus d’info sur le blog de Mikiane)

… en manque de moyens humains

Les rédactions ne sont pas seulement appauvries sur le plan financier, elles manquent aussi de ressources humaines. Car le data journalism nécessite du temps et des compétences : en datamining, en statistiques, en développement, en web-design, en interaction design, en sémiologie visuelle…

Actuellement, personne en France n’a réussi à réunir le bon mix de compétences. Pourtant, c’est sans doute ce qui fait le succès des visualisations du nytimes.com depuis deux ans : le titre fait travailler ensemble des ingénieurs, des infographistes et des journalistes, tous payés le même salaire et sur un même pied d’égalité. Rien à voir avec l’état d’esprit des rédactions françaises, dans lesquelles les « informaticiens » sont déconsidérés.

Ce cloisonnement des rédactions est sans doute un peu moins prégnant lorsqu’on s’intéresse aux rédactions web, mais il n’en reste pas moins un frein au développement du data journalism en France.

… en manque de culture web

Tout simplement, les rédactions traditionnelles n’ont souvent pas l’intuition du data journalism. La plupart du temps, elles ont un train de retard par rapport aux développements du web. Les écoles de journalisme commencent juste à intégrer le journalisme d’innovation et le web dans leurs enseignements. Pour beaucoup des acteurs de ce secteur, cela reste encore un truc de « geek ».

… en manque d’approche statistique

Ce manque d’intuition n’est pas sans rapport avec une culture journalistique très française. Une certaine hagiographie du journalisme made in France prend racine dans l’opposition « facts vs fiction » : opposition entre le journalisme de faits à l’anglo-saxonne et le journalisme littéraire et d’opinion du pays d’Albert Londres. La mythologie journalistique française sacralise la belle plume et le subjectivisme. Sur ce terreau pousse la défiance de nombreux journalistes envers tout ce qui pourrait paraître trop rationaliste, trop technophile ou trop américain.

A ceci s’ajoute la faible culture mathématique, statistique et scientifique de bien des rédacteurs de presse généraliste.

Aversion à mettre les mains dans les données brutes, malaisance avec les valeurs chiffrées, crainte de voir les techniciens commander les rédactions : autant de sensations diffuses qui ne facilitent pas la reconnaissance du data journalism en France.

Pour trouver quelques affinités entre la visualisation de données et l’histoire française, il faut sortir du champ journalistique et se pencher sur celui de la sémiologie. En particulier, la sémiologie graphique, inventée en France par Jacques Bertin, aborde les problématiques de visualisation d’informations géographiques.

Des journalistes américains au service des communautés locales ?

Enfin, une dernière hypothèse pourrait expliquer l’affinité des médias anglosaxons avec le data journalism. Les journalistes américains se considèrent peut-être plus comme étant au service d’une communauté.

Aux États-Unis, les journalisme de données s’est beaucoup développé à l’échelon local avec du crimemapping et des services pratiques (les horaires d’ouvertures des magasins, par exemple). La référence en la matière reste EveryBlock d’Adrian Holovaty : un « agrégateur-visualiseur » de données micro-locales (critiques de restaurants, prix de l’immobilier, etc.).

Les données jouent un rôle important dans la valorisation des territoires. Le journalisme de données, au niveau hyperlocal, peut ainsi être utilisé par les rédactions pour générer de la proximité avec les communauté d’habitants pour lesquelles elles travaillent.

Côté environnement :

Une autre dimension doit être prise en compte : le journalisme de données ne dépend pas uniquement des journalistes, mais également des données à leur disposition.

Une culture de la transparence différente entre la France et les pays anglo-saxons

Et, là aussi, la France est à la traine par rapport aux Anglo-Saxons. Les États-Unis et la Grande Bretagne se sont illustrés par leurs mouvements d’ouverture des données : avec les sites gouvernementaux data.gov et data.gov.uk, mais aussi avec de puissants militants de la cause de l’opendata, la Sunlight Foundation aux États-Unis, et le datablog du Guardian en Grande Bretagne.

Ici encore, on pourrait invoquer un fossé culturel : la culture anglo-saxonne de la transparence dans la gestion publique n’a pas d’équivalent en France. La campagne « Give us back our crown jewels », portée par le Guardian en 2006, ne pourrait pas avoir d’écho sur nos terres républicaines. Pourtant elle a joué un rôle important dans la libération des données publiques en Grande Bretagne. Le Guardian a ainsi activement milité pour que les données collectées grâce à l’argent du contribuable britannique soient accessibles gratuitement, afin de stimuler l’innovation. Il a joué un rôle d’exemplarité en ouvrant ses propres bases de données (DataStore) et en organisant un concours d’applications basées sur ces données libérées. (Voir à ce sujet l’article de Jean Marc Manach « Les joyaux de la couronne n’appartiennent à personne »)

Pas de consensus sur la valeur économique de l’ouverture des données en France

Dans son plaidoyer pour l’ouverture des données, le Guardian insistait sur l’enjeu économique de l’ouverture des données publiques : une meilleure valorisation des données stratégiques, plus de services, plus d’opportunités commerciales, plus d’innovation, moins d’asymétrie informationnelle et donc des marchés plus efficients, et au final, un plus grand dynamisme économique.

En France, il n’y a pas de consensus sur la valeur économique des données publiques. Les entreprises dont l’activité repose sur la privatisation de données n’ont pas intérêt à leur ouverture. L’avantage économique de la libération des données ne s’est pas imposé face aux gains espérés de leur monétisation via la vente de licences. C’est ainsi, par exemple, que l’IGN continue à faire payer l’accès à une importante partie de ses bases de données. (voir ce précédent post pour plus d’info)

Les conditions juridiques de la réutilisation des bases de données

Sans aller jusqu’à dire que l’appareil juridique français est un frein à l’ouverture des données, il faut garder en tête certaines particularités de notre doit des bases de données.

Premier point : le droit d’auteur. Les données brutes ne sont pas, en elles-mêmes, soumises au droit d’auteur mais une base de données peut-être protégée par le droit d’auteur si elle découle d’un acte de création intellectuelle, c’est à dire si elle témoigne d’une originalité caractérisée. L’auteur de la base de données jouit alors d’un monopole d’exploitation de son œuvre (droits patrimoniaux) ainsi que de droits au respect de l’intégrité de son œuvre et au respect de sa paternité sur l’œuvre (droits moraux).

Deuxième point : le droit des producteurs de bases de données. Lorsque que la création d’une base de données nécessite un investissement financier, humain et matériel substantiel, le droit des producteurs reconnaît au créateur un droit de protection analogue à celui de l’auteur sur son œuvre. Cette disposition est destinée à protéger l’investissement des personnes qui prennent l’initiative et le risque économique de créer une base de données. Cette protection garantie au producteur de la base de données un monopole d’exploitation, il peut interdire toute extraction substantielle de données de sa base.

Pour plus de détails voir la très bonne synthèse de Didier Frochot sur les-infostratèges.com et l’étude de la jurisprudence par Bernard Lamon.

Troisième point : la CNIL et les dispositions relatives à la protection de la vie privée. Toute base de données impliquant des données nominatives et/ou personnelles doit faire l’objet d’une déclaration à la CNIL. La collecte et la conservation des données d’une telle base sont également soumises à conditions (voire le site de la CNIL pour plus d’info). De même, doit être soumis à la CNIL tout croisement de bases de données qui aboutirait à qualifier des données personnelles.

L’enjeu de la structuration des données

Enfin, l’ouverture des données repose avant tout sur un enjeu d’accessibilité. Certes, on trouve aujourd’hui de nombreuses données chiffrées sur des organismes publics ou privés. Mais bien souvent ces données sont perdues au milieu de fichiers pdf, éparpillées entre des masses de texte, scannées en format image… et lorsqu’il s’agit de croiser de bases de données, on se retrouve face à des formats disparates et peu malléables… bref, les données sont rarement structurées.

D’accord, la loi du 17 juillet 1978 reconnaît à tout citoyen français le droit d’obtenir communication des documents détenus par une administration.

D’accord, une autorité administrative dédiée, la CADA (commission d’accès aux documents administratifs), veille au bon respect de ce droit d’accès aux documents administratifs.

Mais rien n’oblige les administrations à communiquer leurs données sous format numérique, encore moins de façon structurée.

Sur ce sujet, l’expérience de Nicolas Kayser-Bril est édifiante (voir l’article « On l’a pas en format ordinateur »).

Billet initialement paru sur Database journalism

Illustration : http://www.sxc.hu/