La très controversée loi sur les droits d'auteurs ouvre le dépôt légal de l'Internet en France. La Bibliothèque nationale de France et l'INA s'apprêtent à archiver des millions de sites web français. Un défi pour ces institutions qui s'attaquent à un support insaisissable.
D'un côté, une vieille institution qui, depuis une ordonnance de François Ier en 1537, archive méticuleusement des manuscrits. De l'autre, un espace virtuel en perpétuelle évolution, Internet, qui paraît se soustraire à tout catalogage. Habilitée d'ici peu à réaliser le dépôt légal de l'Internet, c'est-à-dire à collecter et conserver tous les documents du réseau, la Bibliothèque nationale de France se prépare à un défi technologique et documentaire inédit qui appelle de profondes remises en cause de son métier. « Dans cet immense champ d'activité, l'exhaustivité voulue initialement n'a plus sa place », explique Jean-Noël Jeanneney. « Nous devons établir des critères de sélection et mettre au point des outils intelligents pour procéder à une représentation fidèle de l'Internet », poursuit le président de la BnF, qui se réjouit que la transposition de la directive européenne sur les droits d'auteurs et les droits voisins (Dadvsi), pourtant très controversée, lui ouvre le dépôt légal de l'Internet en France.
Pour embrasser au mieux l'Internet, la BnF a choisi trois modèles de collecte. D'abord l'archivage automatique des sites français, sorte de photographie régulière d'un moment de l'Internet. Concrètement, un moteur de recherche navigue de lien en lien, puis convertit et stocke les résultats. L'outil n'est pas parfait mais doit s'améliorer. Lors d'un test entre décembre 2004 et janvier 2005, 3 tera-octects de données (3000 Go) ont ainsi été captés. Ensuite la BnF constituera des archives thématiques, ciblées manuellement. Entre 2002 et 2004, 35.000 sites de campagnes électorales ont été stockés. L'expérience sera reconduite pour les échéances de 2007. Enfin, la BnF complète ces deux types de collectes par un dépôt de sites plus institutionnels, reprenant par exemple toutes les évolution du site du Journal officiel. En revanche, c'est à l'INA que revient l'archivage des 10.000 sites audiovisuels et de leurs données multimédias. Comme la BnF, soit les éléments sonores et vidéos sont détectés et stockés automatiquement, soit une collecte ciblée est commandée.
Une fois la base de données constituée, le tout servira principalement aux chercheurs qui pourraient revenir dans quelques années sur les événements des banlieues grâce à l'archivage d'un million de blogs en novembre dernier. Tous les sites doivent collaborer sous peine de s'exposer à des sanctions, même ceux qui limitent l'entrée par des outils de DRM. En revanche, comme c'est le cas avec les livres et tous les autres supports conservés par la BnF, le grand public n'aura pas d'accès direct aux données. Ce qui ne veut pas dire qu'il ne profitera pas des travaux sur l'indexation de l'Internet français. Jean-Noël Jeanneney ne manque pas en effet de lier le dépôt légal avec le projet de bibliothèque numérique européenne. « Des questions se recoupent », soutient le président de la BnF. « Il s'agit là aussi d'organiser le recueil et l'héritage, de choisir les livres comme nous choisissons les thématiques des sites », un exercice que « les bibliothèques nationales sont mieux à même de faire que les firmes commerciales », Google en tête. Exemple avec ce consortium, l'IIPC, qui fédère depuis 2003 autour du stockage d'Internet onze bibliothèques nationales et l'Internet Archive, pionnier américain de l'archivage de l'Internet.

La hausse du marché des voyages en ligne en France, en 2007.
Spécialiste de la mesure d'audience, la société Médiamétrie s'est associée à la Fevad pour publier le classement des principaux sites français de commerce électronique, une activité...
Service de labellisation contre les détournements bancaires, la société Fia-Net publie la première édition de son « Livre Blanc » consacré à la performance des sites marchands...
Vodafone souhaite renforcer son pôle de services Internet mobiles en surfant sur la vague du « Web 2.0 ». L'opérateur vient en effet d'annoncer l'acquisition de 100% des parts...