Il faut d'abord réaliser l'ampleur de la tâche : chaque seconde, 29 000 Gigaoctets de données sont publiés sur le Web dans le monde. Chaque minute, 600 nouvelles pages sont ajoutées sur Wikipedia. Chaque jour, plus de 5 milliards de requêtes sont tapées sur Google. Chaque mois, 91,8 millions d'articles de blog sont mis en ligne. Sans aucun doute, archiver le Web est un travail qui aurait pu être attribué en pénitence aux Danaïdes, du nom de ces sœurs condamnées, dans la mythologie grecque, à remplir pour l'éternité un tonneau percé aux Enfers.

Lorsque l'on sait que le Web fête aujourd'hui ses trente ans, depuis sa création en 1989 par le Britannique Tim Berners-Lee, informaticien qui officiait pour le CERN, ces chiffres donnent encore plus le vertige. Pourtant, conserver notre patrimoine Internet est un labeur nécessaire. Car les textes, photos, dessins, vidéos et autres données que l'humanité partage en flot continu sur le Net font partie prenante de l'histoire qu'elle écrit chaque jour. Mais qui est charge de préserver cette "mémoire du Web" ? Et de quelle manière cet archivage se fait-il ? Tout est-il conservé ? Où cette matière est-elle stockée ? Autant de questions auxquelles cet anniversaire donne l'occasion de répondre.

Depuis quand archive-t-on le Web ?

La volonté de pérenniser ce contenu voué à être, par essence, éphémère, ne date pas d'hier. C'est la Bibliothèque nationale du Canada qui, en 1994, lance la première un projet d'archivage du Net. Deux ans plus tard, Internet Archive, une fondation américaine, se donne elle aussi pour mission de mémoriser un maximum de ressources en ligne. Elle y parviendra avec succès puisque depuis près de 23 ans, cette organisation à but non-lucratif enregistre chaque semaine près de 300 millions de nouvelles pages. Aujourd'hui, sa "salle d'archives" dématérialisée renfermerait plus de 450 milliards de captures de pages, faisant d'elle la base de données la plus vaste au monde.

En France, la démarche est plus récente… et part d'une obligation légale, introduite en 2006 dans le code du patrimoine. En effet, la loi DADVSI, relative au droit d'auteur et aux droits voisins dans la société d'information, a officialisé le dépôt légal du Web français. Depuis cette date, la Bibliothèque nationale de France (BnF) et l'Institut national de l'audiovisuel (INA), pour les contenus audiovisuels, sont donc chargés d'archiver le Web français. Pour rattraper les années manquées, soit toutes celles avant 2006, les deux institutions ont dû d'ailleurs racheter des fonds à Internet Archive et faire appel à leurs services techniques. Mais après tout, le jeu en valait la chandelle : aujourd'hui, la BnF et l'INA sont parvenues à constituer, en termes de volume, la seconde collection d'archives la plus importante au monde.

Que signifie réellement "archiver" le Web ?

Contrairement à l’image mentale que notre cerveau serait tenté de nous suggérer, les pages Web ne sont pas imprimées sur papier et classées dans d’énormes dossiers destinés à prendre la poussière dans un obscur sous-sol. Internet Archive a mis au point un système de collecte par clichés instantanés, qui revient grosso modo à faire des captures des pages Web que l’on souhaite figer. La BnF et l’INA appliquent la même méthode.

Tout est-il conservé ?

Sans surprise, la réponse est non, même si l’objectif est bien d’archiver un maximum de choses. D’abord parce que la collecte de l’intégralité des données mises en ligne serait logistiquement impossible, ensuite parce que leur stockage deviendrait franchement problématique. De fait, Internet Archive scanne les pages Web du monde entier environ tous les deux mois, et ne les photographie qu’à quelques clics de "profondeur".

En France, la fréquence de collecte est plus basse : les 4,5 millions de sites "immortalisés" par la BnF ne le sont qu’une fois par an. Toutefois, elle réalise des collectes journalières ou du moins plus régulières sur environ 20 000 sites, comme ceux des médias par exemple.

Comment se fait cette collecte ?

Grâce à de petits robots (heureusement pour les vraies personnes œuvrant au quotidien dans ces organisations), qui se perdent en continu dans les méandres du Web et des réseaux sociaux. Appelés robots d’indexation, ils comptent parmi les programmes qui font fonctionner les moteurs de recherche. Afin d’effectuer au mieux leur travail de collecte, il est possible de leur donner des consignes (par exemple, celle de ne capturer que des fichiers images ou de n’explorer qu’une partie d’un site) grâce à de petits fichiers nommés robots.txt. Ainsi, ils vagabondent de page en page, instructions en main, à la recherche de nouveaux contenus, y compris sur les pages déjà visitées et depuis actualisées.

Mais ces logiciels doivent faire face à nombre d’embûches. En 2010, dans les colonnes de Sciences et Avenir, l’une des bibliothécaires en charge de l’archivage du Web français racontait comment "les robots pouvaient tomber dans des pièges et tourner en boucle", notamment lorsqu’ils exploraient "un calendrier, par exemple, dont les pages vides [pouvaient] s’effeuiller de mois en mois, d’année en année, à l’infini". Autre anecdote, concernant cette fois la capacité de ces petits robots à mettre le bazar sur un site : "Un jour, l’un d’entre eux a commandé des tracteurs sur un site marchand ! Heureusement, il n’avait pas de carte bancaire pour les payer !"

Plus récemment, Internet Archive faisait part des problèmes qu’occasionnaient les fichiers robots.txt : leur côté "borné" empêcherait l’exploration de pans entiers du Web.

Où sont conservées ces données ?

Physiquement parlant, les fichiers d’Internet Archive sont stockés dans des systèmes fabriqués par Capricorne Technologies, des Petabox Racks. Par mesure de précaution, l’organisation conserve une copie des archives actualisée en temps réel à la Bibliothèque d’Alexandrie, en Égypte. Tout un symbole.

À la BnF, les archives sont, elles, remisées dans deux entrepôts numériques – l’un situé dans la bibliothèque-même, l’autre en banlieue parisienne –, sur des bandes magnétiques, plus robustes que des disques durs. De façon assez comique, c’est un autre robot, mécanique cette fois, qui part à la recherche du fichier demandé... sur des étagères.

Comment les consulter ?

Afin de se plonger dans ces millions "d’albums photo numériques", Internet Archive a mis au point une sorte de machine à remonter le temps. Surnommée la "Wayback Machine", elle est somme toute l’outil qui permet de naviguer gratuitement à travers les quelques 450 milliards de pages Web archivées depuis 1996.

Néanmoins, il est capital de connaître au préalable l’URL exacte de la page recherchée, au risque de ne pouvoir retomber dessus. À l’heure actuelle, aucun système au monde ne propose malheureusement d’indexation complète de ses contenus à la manière d’un moteur de recherche. À noter aussi que si les robots captent des instantanés des pages environ tous les deux mois, il faut attendre entre six et douze mois avant de pouvoir les consulter sur Wayback Machine.

En France, la consultation des archives du Web est un peu plus compliquée, puisqu’elle nécessite de se rendre dans les salles de recherche de la BnF, après avoir fait part d’une demande motivée, ou dans l’une des 26 bibliothèques françaises donnant accès à distance à cette base de données. Bien sûr, il est toujours possible de consulter des pages françaises sur Wayback Machine, mais malheureusement, elles y sont plus rares...

"WEB", "INTERNET", QUELLE DIFFÉRENCE ? Le Web, lui, n'est en réalité qu'une "couche" d'Internet, une application qui sert à naviguer simplement de site en site par le biais de liens hypertextes, sans avoir à taper les adresses des pages sous forme codée. À partir de là, Internet va ressembler à une "toile d'araignée" (Web).