Des « Robins des Bois » libèrent les livres de Google Books

Le 13 octobre 2010 Lionel Maurel (Calimaq)

Des internautes ont téléchargé plus de 900 000 livres sur Google Books pour les mettre sur Internet Archive, supprimer les restrictions d’usage imposées par Google et les remettre pleinement dans le domaine public.

Hier, sous le billet que j’avais consacré cette semaine aux livres du domaine public dans Google Books, un internaute nommé Pablo Iriarte a laissé un très intéressant commentaire, qui m’incite à revenir sur cette question dans un nouveau billet.

Visiblement, les éditeurs ne sont pas les seuls à essayer de récupérer des ouvrages scannés par Google pour les réutiliser à leurs propres fins. Des utilisateurs d’Internet Archive auraient procédé à des téléchargements massifs (900 000 livres !) pour les charger dans Internet Archive, afin qu’ils puissent être débarrassés des restrictions d’usage imposées par Google et regagner ainsi pleinement le domaine public.

Un procédé très astucieux

Ces Robins des Bois exploiteraient une faille des conditions d’utilisation de Google Books. Celles-ci interdisent en effet d’extraire du contenu de Google Books en procédant à des « requêtes automatisées » (type aspiration de base de données), mais rien n’interdit à une myriade d’individus de venir télécharger quelques ouvrages pour les déposer dans Internet Archive. Google n’a pas la possibilité de les attaquer, pas plus certainement qu’il ne peut agir contre Internet Archive, dans la mesure où le site ne fait qu’héberger des contenus chargés par ces usagers.

Extraits des travaux de Charles Darwin publié par Archive.org

J’avais déjà eu vent de telles pratiques au détour d’un billet de mars dernier écrit par Peter Hirtle sur LibraryLaw Blog. Il s’interrogeait à propos de ces agissements : « One has to wonder about the utility of well-meaning efforts such as those of the Internet Archive to capture and store copies of the Google scans« . En cherchant bien dans les forums d’Internet Archive, on trouve effectivement des discussions relatives à des chargement de livres du domaine public extraits de Google Books (voyez cet échange du 29 juillet 2010).

Un watermark contesté

Ailleurs, on apprend également que des utilisateurs d’Internet Archive font disparaître le watermark « Numérisé par Google » que la firme appose au bas de toutes pages des ouvrages de sa bibliothèque numérique », car ils considèrent qu’une telle marque n’a aucune valeur juridique, lorsqu’elle est apposée sur un ouvrage du domaine public.

This would be illegal on Google’s part since no one can copyright or restrict the text part of a public domain item [...] we can and should remove their watermarks, since once again this is after all public domain stuff. The founding fathers of the United States would turn-over in their graves is the actually saw what the political scum in this country have done to the copyright laws. Protection was never meant to be for all eternity or for some parasitic mega-corporate mass-media corporations.

Une fois « libérés » dans Internet Archive, les livres sont placés sous le statut « Public Domain » qui permet tout type de réutilisation, y compris à des fins commerciales.

Finalement, à la lumière de cet exemple, comme de celui que j’avais repéré mercredi, on se rend compte que les restrictions que Google tente d’imposer pour verrouiller son contenu sont peut-être beaucoup plus fragiles qu’on ne pourrait penser. Et ce qui va également dans ce sens, c’est que malgré ces extractions massives, Google n’a pas réagi pour l’instant.

Merci à Pablo d’avoir attiré mon attention sur ce point. Je copie ici in extenso son commentaire qui vous apportera des précisions supplémentaires :

J’ai réalisé il y a quelques semaines que plus de 900 000 livres avaient été extraits à partir de Google Book Search et archivés sur Internet Archive. Ce « détournement » des documents du domaine public, scannés par Google à partir des fonds des bibliothèques m’a bien plu car c’est un joli cas d’arroseur arrosé… le même « fair use » évoqué par Google peu alors être utilisé par un autre organisme comme l’internet archive pour se justifier.

Malgré le fait que les PDFs ne sont pas diffusés par l’archive (il y a toujours un lien sur la version de Google qui pourrait compenser l’abus) le full text est bel et bien proposé dans différents formats au téléchargement et à la consultation en ligne via son propre système.

Selon la courte explication donné par Internet Archive sur cette page :

« Digitized books from many different libraries from the Google Book Search program. These digital files have been downloaded from the Google site and uploaded to the Internet Archive by users. While these books may be old enough to be in the public domain, but there is no guarantee by anyone of their legal status. These books have been made text searchable as a finding aid and downloading refers to Google’s site. Please refer to Google’s site for any rights issues or restrictions. »

Ils ont trouvé la parade qui va dans le même sens que celui montré dans ce billet : si les documents ont été extraits par les utilisateurs, cela exclue l’extraction par des moyens automatiques tant redoutée par Google. Cela me paraît très intéressant car, au final, si les utilisateurs se mettent à télécharger en masse les PDF de Google des œuvres du domaine publique, à faire tourner l’OCR dessus et rediffuser sa propre version en texte brut rien ne pourrait les empêcher.

En regardant de près les 900 000 documents on voit très vite que c’est toujours le même utilisateur qui a fait le boulot, ce qui est encore plus surprenant ! Mais tout s’explique quand on lit son code d’utilisateur : « TPB » (les pirates sont encore parmi-nous, hip-hip !)

J’ai tenté de chercher des explications ou un semblant de partenariat du côté de Google ou ailleurs et je n’ai rien trouvé pour le moment, jusqu’à la parution de votre billet qui ajoute une nouvelle lumière et un trou inattendu pour lequel ces documents peuvent retourner dans le domaine public. Le plus drôle de l’histoire est que maintenant il y a des livres pour lesquels la version européenne de Google Books ne donne que des extraits mais qu’on peut télécharger complètement via Internet Archive car ils ont exploité le texte intégral fourni par la version américaine du moteur, par exemple cette version des travaux de Charles Darwin publié en 1896, qui dépasse la date fatidique de 1870 pour nous, pauvres européens.

Je me réjouis de voir la réaction de Google (si réaction il y en a…) mais je doute qu’ils tentent quelque chose contre ce détournement car ils attaqueraient le principe fondateur du fair-use qui équivaudrait à se tirer une balle dans le pied. Et finalement ce ne sont que 900’000 livres…

>> Article publié initialement sur S.I.Lex

>> Illustration FlickR CC : Jameson42

Musique et grève : C’est dans la rue !

Russia: Landscape and Trends of Online Transparency Initiatives

Facebook♥ Twitter♥ ♥ RSS

3
commentaires Fermer

Laisser un commentaire

Derniers articles publiés

Une Vive Internet! Inédit • 14 décembre 2012

[Infographie] 10 ans de Creative Commons

par Sabine Blanc

Cette semaine, Creative Commons fête ses dix ans dans le monde entier. Une décennie d'alternative à une vision maximaliste de la propriété intellectuelle qui a su conquérir le grand public. Owni, un des rares médias en CC en France, vous retrace cette histoire en une infographie interactive.

Twitter Facebook 188

creative commons, droit d'auteur, Lawrence Lessig

Graphisme Chronique • 14 décembre 2012

Charte de confidentialité : des icônes pour informer

par Geoffrey Dorne

Personne - ou presque - ne lit les politiques de confidentialité. Pour simplifier les choses et rendre compréhensible ce que fait chaque site avec vos données, designers, citoyens et experts soutenus par la fondation Mozilla ont mis en place une liste d'icônes. Tour d'horizon de l'initiative.

Twitter Facebook 223

Art, CGU, création, design, graphisme, icone, icônes, picto, pictogramme, vendredi-graphism, vie privée

droit Chronique • 14 décembre 2012

Les Creative Commons hackent le droit d’auteur !

par Lionel Maurel (Calimaq)

Toute la semaine, ce sont les dix ans des Creatives Commons. L'occasion pour notre chroniqueur Calimaq de revenir sur le projet : réussites, limites et défis à relever.

Twitter Facebook 344

#cc10, creative commons, droit d'auteur, licences libres

Une Vive Internet! Édito • 13 décembre 2012

Offrez-vous un Owni

par Media Hacker

Des milliers de témoignages de réconfort et de soutien, et beaucoup évoquant le souhait de participer financièrement. Il nous reste à déterminer si cette somme de bonnes intentions peut effectivement transformer notre modèle économique et faire vivre le média.

Twitter Facebook 602

42, financement, Internet, médias, owni

Presse Enquête • 13 décembre 2012

Google : chêne ou roseau?

par Andréa Fradin

Google et les éditeurs de presse belges ont enfin trouvé un accord. Pour Le Monde, cela veut dire que "la presse peut faire plier Google" et que les titres français peuvent espérer profiter d'un effet "boule de neige". En fait, c'est un poil plus compliqué. Explications.

Twitter Facebook 78

belgique, Copie presse, éditeurs de presse, Google, IPG, Laurent Joffrin, lex google, médiation

L'auteur

Lionel Maurel (Calimaq)

En savoir +

Tags pour cet article:

domaine public, google books, Internet Archive, numérisation, watermark

Du même auteur:

Les Creative Commons hackent le droit d’auteur !

Toute la semaine, ce sont les dix ans des Creatives Commons. L'occasion pour notre chroniqueur Calimaq de revenir sur le projet : réussites, limites et défis à relever.

344

Le prix de l’information

Pour l'information comme pour le reste, la liberté a un prix. Mais l'information peut-elle réellement avoir un coût sans risquer de générer une paradoxale entrave à sa propre liberté ? Réflexion toujours d'actualité, conduite par Lionel Maurel.

259

Les licences libres aux portes de la révolution

Rendre les moyens de production aux travailleurs : douce utopie ? Pourtant, dans le monde des licences libres, les exemples concrets et aboutis existent bel et bien, qui pourraient bien faire émerger une économie des communs. Voire davantage si affinités.

431

Fashion victim du copyright

La joute entre Apple et Samsung questionne sur la brevetabilité de l'utile et des formes attachées à la fonction d'un objet. À qui appartiennent le carré, le rond, le triangle ? Creusons un peu le droit pour comprendre ces guerres du copyright parfois un peu absurdes.

144

Le non commercial, avenir de la culture libre

La licence NC (non commerciale) des Creative Commons permet à chacun de diffuser la culture librement en se laissant finalement la possibilité d'en faire soi-même commerce. Insupportable pour les libristes orthodoxes. Elle est pourtant indispensable pour réformer le droit d'auteur.

500

Voir tous les articles