Bibliothèque Nationale de France
Bibliothèque Nationale de France

Le très controversé projet de loi sur le Droit d'Auteur et les Droits Voisins dans la Société de l'Information (DADVSI) autorise officiellement l'Institut National de l'Audiovisuel (INA) et la Bibliothèque Nationale de France (BNF) à archiver conjointement le contenu du web français. C'est un immense défi technique et documentaire pour les deux organismes, même s'ils mènent déjà des expérimentations dans ce domaine depuis quelques années. Ils se disent toutefois prêts aujourd'hui à assurer à grande échelle le rôle de dépositaires de la mémoire numérique collective qui leur sera bientôt confié. Leur mission consistera à indexer tous les sites web publiés sur l'internet français, à les archiver, les conserver en mémoire au titre du patrimoine collectif national et en communiquer ensuite les pages aux générations futures, comme ils le font déjà actuellement pour les livres (BNF, depuis une ordonnance de François Ier en 1537) et les documents audiovisuels (INA). Parmi les tâches qui leur incombent ils devront en particulier mettre en place progressivement le Dépôt légal obligatoire pour tous les sites internet français. L'article IV du projet de loi prévoit en effet une obligation de dépôt légal pour tous les "signes, signaux, écrits, images, sons ou messages de toute nature faisant l'objet d'une communication publique en ligne". Puis, après la collecte automatique des ces données, il leur faudra également être en mesure d'offrir au public une consultation aisée de cette grande bibliothèque numérique. Problématique qui rejoint ici celle de la fameuse bibliothèque numérique européenne voulue par Jean-Noël Jeanneney, actuel président de la BNF, en réaction aux projets de Google.

Chacun de ces deux organismes dépositaires officiels effectuera sa mission dans la continuité logique de ses collections. Ainsi le périmètre de l'INA concerne les sites et les blogs liés à la communication audiovisuelle, selon Emmanuel Hoog, son PDG. Cela inclue essentiellement les sites des radios et des télévisions (500.000 heures d'émission par an), les sites institutionnels comme par exemple celui du Conseil Supérieur de l'Audiovisuel (CSA) et les portails et grands sites de données multimédia en rapport avec le secteur, soit au total selon l'INA environ 10.000 sites à archiver régulièrement. Du coté de la BNF, qui aura la charge de tous les autres, soit environ 1 million de sites web, Jean-Noël Jeanneney explique qu'elle procèdera par collectes thématiques, comme ce fut le cas par exemple pour les sites électoraux lors des élections de 2002 et du référendum de 2004. 3.500 sites, 23 millions de pages et 535 Go de données ont été collectées et stockées à cette occasion. Autre exemple, lors des émeutes survenues en banlieue en novembre dernier, la BNF a indexé un million de blogs traitant du sujet, conservant cet immense réservoir de données photographiées au moment T pour les futurs chercheurs. Une collecte exhaustive et permanente de la toile française est en effet impossible en raison de la colossale masse mouvante de documents qui se trouvent dans cet espace virtuel encore mal cartographié. Une sélection sera également opérée selon divers critères définis par la BNF, les sites les plus connus, ceux d'actualités et de références, et notamment tous ceux disposant de l'extension nationale en .fr (118 millions de pages recensées début 2005) étant bien entendu prioritaires. Ils seront archivés régulièrement de façon automatique via des robots qui parcoureront le net national. Par ailleurs chaque éditeur devra effectuer le dépôt légal de ses sites web, sous peine de s'exposer à des sanctions.

Reste toutefois à savoir si le projet de loi sur le Droit d'Auteur et les Droits Voisins dans la Société de l'Information, fortement contesté sur certaines autres mesures comme celles concernant les systèmes de DRM (Digital Rights Management, Gestion numérique des droits) et l'échange de fichiers entre internautes, sera voté en l'état au Parlement.