Table des matières

Workshop LIBER : Digital Data Curation, Vienne, 19-20 mai 2014

H. Van de Sompel (Los Alamos National Laboratory) : Using Web Infrastructure for Archiving

Transition : paper-based scholarly communicationnativelly digital, web-based scholarly communication

Importance de l'interopérabilité, non pas entre les systèmes, mais avec et via le web.

Publication papier : l'archivage des publications est assuré par les bibliothèques ⇒ il est possible de réviser les publications et les expériences (réviser le contexte original) en allant à la bibliothèque

Publications électroniques : il n'y a que des articles électroniques, liés entre eux. La bibliothèque n'assure plus la conservation, mais ce sont des infrastructures spécifiques qui le font (PORTICO…). Est-il encore possible de réviser ?

Environ 50% des articles, seulement, sont archivés, et ce sont surtout les plateformes des grands éditeurs.

Problème : ce qui est archivé utilise comme descripteurs les modes de fonctionnement de la publication classique (ISSN, n° de fascicule…) alors que le web fonctionne avec des DOI ⇒ pas adapté au web

Problème : de plus en plus d'articles sont liés à d'autres objets numériques (logiciels, données, slides, blogs…) ⇒ ce sont des ressources dynamiques et éphémères qui sont susceptibles d'être victimes du “reference rot” (ex : liens brisés HTTP 404), et qui sont hors du périmètre des infrastructures qui s'occupent d'archivage pérenne.
Même si les liens fonctionnent encore, le plus souvent le contenu de la page web n'est plus le même ⇒ impossible de réviser le contexte original de la publication ! Manque de ressources archivées.

Web de données :
ex : Myexperiment : plateforme de partage d'expériences scientifiques
Tout le processus de recherche est visible sur le web, et plus seulement le résultat (i.e. la publication)
Extension massive des “scholarly records” avec une grande variété d'objets
Ces objets sont hétérogènes, dynamiques, interconnectés et distribués sur le web
Souvent, ces objets sont hébergés sur des plateformes qui ne sont pas conçues pour le monde de la recherche, et donc qui ne se préoccupent pas forcément d'archivage pérenne
Distributed resources” : l'auteur de la ressource ne peut pas savoir quand elle sera utilisée, et ne peut pas décider quand elle est terminée (au contraire de la publication) : l'archivage tel qu'il est pratiqué dans le monde des revues ne convient pas.
Les robots du web visitent les sites à des moments différents : temporal inconsistency de l'archivage du web fondé sur les robots
⇒ Dans ces conditions, comment réviser la publication originale et son contexte ?

Archiver pendant le cycle de vie de la ressource, à la demande : projet Hiberlink, projet perma.cc, projet HiberActive, projet Zenodo et GitHub (archivage par Zenodo des versions déposées sur GitHub)
Problème : ces systèmes utilisent des mécanismes différents (pas durables, pas généralisables)

Projet OAI-ORE : importance d'avoir une représentation “pour les humains” de la ressource archivée, mais aussi une représentation “pour les machines”

Problème : la pratique actuelle est de remplacer l'URI originale par l'URI de la version archivée, ce qui empêche de réviser la publication originale, et ce qui rend dépendant de l'archive : que se passe-t-il si l'archive disparaît ? En fait, on ne fait que remplacer un problème de lien brisé par un autre. Les archives du web ne sont pas pérennes !

Utiliser l'URI originale pour faire les liens, et contextualiser le lien avec la date du lien et les URI des versions archivées

Memento : accès aux archives via l'URI originale et une date ⇒ fourniture d'une copie de la page, telle qu'elle existait à cette date
Extension Memento pour Chrome

Question de la curation : quelles données archiver ? Quand ? Sur quels critères ?

A. Rauber (TU Wien) : Data Management Plans, a good idea but not sufficient

Safeguarding investment made in data. Need to preserve and curate the data.

DMP : intégrés dans les projets de recherche. Focus on data, descriptions, declarations of activities to ensure long-term preservation

Problème : les DMP sont des déclarations d'intentions, difficilement vérifiables. Les chercheurs, les établissements doivent devenir des spécialistes de la gestion des données. Se concentrent sur les données, en ignorant le processus qui est lié. Limites : disponibilité des données et des résultats, vérification des résultats, réutilisation des données, écrit par des humains pour des humains.

Les données n'existent pas seules, en dehors du processus de recherche. La curation des données doit tenir compte des processus.

On ne publie plus un article, mais un processus de recherche dont l'article n'est qu'une métadonnée descriptive !

Passer du DMP au PMP (Process Management Plan) :
☞Couvrir le processus de recherche : idées, étapes, outils, documentation…
☞Garantir la réutilisation, la répétition
☞Lisible par des machines, vérifiable

Adapter la structure d'un DMP pour en faire un PMP :
contexte, description du processus et de son implémentation, préservation, partage et réutilisation, monitoring, review

Nécessité d'établir des schémas de description des processus. Modéliser les processus sous forme de workflows lisibles par des machines. ⇒ possibilité de vérifier la validité et la ré-exécution du processus.
Appliquer des DOI à des requêtes datées. Dater et versionner les données !

Moyens pour y parvenir :
research infrastructure support : versioning systems, logging, virtual machines, carnets de laboratoires virtuels, data citation support for large and dynamic databases
R&D in processs preservation, re-deployment & verification : evolving research environments, code migration, verification of process re-execution, financial impact, business models

Le DMP et le PMP doivent être des documents vivants, évolutifs, qui accompagnent tout le projet/processus de recherche et qui sont mis à jour régulièrement.

M. de Niet (DEN Foundation) : PERSIST : A UNESCO-ICA-IFLA initiative to enhance the sustainability of the Information Society

Objectif : garantir la durabilité de la société de l'information en établissant la continuité du contenu (données, notices, information)

Faire travailler ensemble une taskforce politique, une taskforce technique, et une taskforce de curation des contenus

Charte de l'UNESCO sur la conservation du patrimoine numérique (2003)

Se concentrer sur la continuité des données, plutôt que sur la continuité des logiciels et des médias.

Taskforce politique : inciter les gouvernements à s'impliquer. Permettre des discussions entre les partenaires publics et privés.

Rôle des bibliothèques dans le projet : apporter son expérience dans les workflows et dans les politiques de sélection ; porter les besoins des usagers ; participer à la taskforce de curation des contenus (ex : via LIBER) ; apporter expérience avec les entreprises de l'information

H. Fransen (Leiden University) : Introducing data management planning at an institution

Pourquoi confier la gestion des données à la bibliothèque ? La bibliothèque gère déjà l'archive ouverte, et est la spécialiste des métadonnées, elle travaille avec toutes les facultés, et elle est là pour rendre des services

BU Leiden : projets sur la gestion des données dès 2011

Back office : data centers ; Front office : BU

2011:
Back office : centre d'expertise sur la gestion des données et l'archivage pérenne ; sont chargés de la formation des bibthécaires et du support ; sont chargés de l'archivage (l'entrepôt ne se trouve pas à l'université)

Front Office : 2 data librarians (= 1 ETP) : assistance aux chercheurs, formation des chercheurs, support, coopération avec back office. En outre, les subject librarians de la BU sont chargés de faire le lien avec les facultés, d'être un support de premier niveau, de faire la curation des données, et de travailler avec les autres services de la BU (copyright information, information specialists, catalogueurs…)

Fin du projet en mars 2013. Constats : aucun jeu de données n'a été déposé, peu d'intérêt chez les chercheurs, peu d'ateliers de formation, business model Front Office-back Office à tester, peu de contacts avec les facultés, équipe petite.

2013 :
H2020, politiques des agences de financement sur les données… ⇒ prise de conscience au niveau de certaines facultés
⇒ mise en place d'une University Policy for research data management et lancement d'un projet pilote avec la faculté des sciences sociales

2014 :
Développement du pilote dans toutes les facultés. Mise en place de DMP et analyse des besoins. Mise en place d'une politique formalisée au niveau de l'établissement

Les facultés doivent faire un inventaire de leurs workflows de recherche et de leurs pratiques en termes de data management et un inventaire des besoins. Un chercheur reconnu est chargé de porter le projet dans chaque faculté.

Questions prioritaires :
Définition des DMP et des besoins d'assistance des chercheurs, numérisation, retrouver des données, gérer des métadonnées, questions juridiques. Questions moins importantes : partage et réutilisation des données

La BU est passée d'un rôle de missionnaire à un rôle de prestataire d'un service de qualité.

Conseils :
☞Impliquer tous les partenaires concernés !
☞Commencer à former les équipes très en amont
☞Développer les contacts avec les facultés
☞Proposer une infrastructure de stockage qui permette différents niveaux de droits, de sécurité…
☞Y réfléchir à deux fois avant de créer un gros entrepôt local pour toutes les données car c'est trop de travail pour une seule institution
☞Chercher des partenaires au niveau national et international (cf. ci-dessus)

Discussion :

Rôle des bibliothèques dans ce contexte :
Le rôle traditionnel des bibliothèques est de collecter l'information, mais l'information est aujourd'hui sur le web. Si les bibliothèques ne s'occupent pas du web, quel sera leur avenir ? Il faut s'appuyer sur l'expertise des bibliothèques dans les métadonnées, sur leur rôle de créateur de liens entre différents acteurs concernés (chercheurs, organismes de recherche, agences de financement).

LIBER fera appel à ses membres pour participer à des projets collaboratifs, en réponse aux appels à projets H2020.

N. Lossau (Universität Göttingen) : from local to global

Local repository : only a starting point ⇒ une partie d'une infrastructure de recherche globale

Pour exploiter tout le potentiel des archives ouvertes locales, il faut les connecter et les exposer aux machines et aux outils qui font du data mining, qui agrègent et analysent les données virtuelles (ex : API disponibles pour OpenAIRE)

Créer une infrastructure de recherche globale, fondée sur les archives ouvertes du monde connectées entre elles ⇒ interopérabilité et coopération internationale

Il existe des réseaux nationaux d'archives ouvertes, des réseaux régionaux (ex : OpenAIRE en Europe, La Referencia en Amérique du Sud)

Rome, mars 2014 : initiative stratégique “towards a seamless global research infrastructure” de COAR
Achieve common understanding : harmonisation en autorisant la diversité
☞Les réseaux d'archives ouvertes doivent travailler ensemble pour offrir un accès le plus transparent possible. Adopter des pratiques communes
☛Eviter les silos !
☛Principe de base : libre accès, mais les archives ouvertes servent aussi d'autres objectifs (data curation, évaluation de la recherche…)
☛Importance stratégique d'une harmonisation des réseaux, sous la bannière de COAR
☛Adoption de principes communs
☛Axes de travail prioritaires :
Limiter les embargos, et considérer que l'accès immédiat est la meilleure solution. Si un embargo est imposé, il doit être limité limité à 6-12 mois en fonction des disciplines
Incorporer les identifiants ORCID dans les archives ouvertes, de manière globale. Promouvoir l'usage d'identifiants pérennes (ex : DOI). Adopter des définitions standard de concepts importants (ex : embargo)
Mettre l'accent sur les services : gestion des données, lier les données aux publications, intégrer les archives ouvertes dans les systèmes d'évaluation de la recherche.

Ambition : concurrencer les réseaux sociaux de la recherche comme ResearchGate.

P. Budroni (UB Wien) : le projet e-infrastructures Austria

Projet e-infrastructures Austria : 2014-2016

25 partenaires

Objectif : créer un réseau de compétences ainsi qu'un réseau d'entrepôts de données et de publications ⇒ mise en application d'H2020

3 acteurs principaux sont impliqués dans le projet : les bibliothèques, les chercheurs, les services informatiques. Les bibliothèques se concentrent sur le support aux usagers et les données

Création d'un réseau d'entrepôts interconnectés, mais chaque institution reste propriétaire de ses données

Pour les publications : archive ouverte locale. Pour les données : création d'un entrepôt national.

La structure de gouvernance contient un think tank, chargé d'impulser, de réfléchir… : permet d'attirer des compétences extérieures au projet.

Elaboration en commun de DMP

Standardisation des archives ouvertes et harmonisation des pratiques

Projet financé pour 1/3 par le ministère de la recherche (appel à projets), et pour le reste par les institutions partenaires.

J. van der Hoeven (KB Nederland) : the use of emulation tools as part of a strategy for long-term preservation of digital records

Pour assurer la pérennité dans le temps des objets numérique, deux technologies existent : migration de format de fichier ou émulation.

Le choix entre la migration ou l'émulation dépend du type de fichier (fichiers communs ou exotiques…) et de la masse

Projet GRATE/bwFLA Emulation as a service (Universität Freiburg) : 2005-2014
webservice d'outils d'émulation qui peut être intégré dans des plateformes d'archivage

Projet Emulation Framework :
7 émulateurs, 6 plateformes, 25 formats de fichiers
Le framework gère les émulateurs et aide à choisir le meilleur émulateur en fonction du fichier. Peut être intégré à une plateforme d'archivage. Open source (licence Apache 2.0)

M. Grootveld (DANS) : Certification and Dutch management services

DANS (réseau des Pays-Bas) : infrastrucure fédérée de gestion des données

Propose un portail qui moissonne les entrepôts locaux. Accorde les identifiants pérennes.

Propose des DMP mutualisés

Les agences de financement de la recherche aux PB exigent DMP

DANS assure le back office (data center)

Le front office est assuré par des infrastructures disciplinaires, par les BU…

Certification

DANS certifie les données : plusieurs niveaux de certification (Data Seal of Approval)
Niveau de base : les données sont disponibles sur internet, sont accessibles, sont dans un format utilisable, sont sûres, sont citables (identifiant pérenne). Niveau le plus élevé : ISO 16363

La certification est importante car le bon fonctionnement du réseau repose sur la confiance et sur la certification exigée par certains projets européens (ex : DARIAH, appel à projets H2020)

Le chercheur ne doit pas avoir besoin de s'occuper de ces questions lui-même ⇒ importance d'un front office puissant et efficace dans les institutions.

Préservation sur le long terme du patrimoine numérique

Research Data Alliance : possible de devenir membre et participer à un des groupes de travail.

Conclusion :

Data driven science : même si les données ont toujours existé, il y a une prise de conscience récente de l'importance et de la valeur de ces données.

Rôle des bibliothèques ? ⇒ changer nos pratiques et se saisir de la question

Tenir compte des spécificités disciplinaires

Importance du travail collaboratif dans ce genre de projets : partager !

Les chercheurs ne sont pas forcément enthousiastes à l'idée de partager leurs données ⇒ les BU doivent faire la promotion du libre accès pour les données, comme elles le font pour les publications.

Pour commencer un projet : utiliser une feuille de route, afin de définir les services qu'on veut rendre. Utiliser par exemple la roadmap de la LERU.

Pistes d'action pour LIBER :
organiser un workshop sur les aspects pratiques de la gestion des données au congrès LIBER 2015 (Londres)

Atelier APARSEN/SCAPE :

Digital Rights Management in the context of long-term preservation

APARSEN : réseau d'excellence de préservation numérique, fondé par l'UE. Projet : janvier 2011-décembre 2014.

Le CINES fait partie d'APARSEN.

Objectif d'APARSEN : mettre en réseau les projets et les actions individuels, avec une vision commune.

DRM : avoir une compréhension commune de ce que sont les DRM. Etat des lieux des techniques et outils des DRM, et évaluation par rapport à leur impact sur l'archivage pérenne. Rédaction de recommandations.

Distinguer DR et DRM : les DRM permettent soit d'autoriser soit d'interdire l'usage et l'accès.

DR : préservation et protection des contenus sur le long terme ⇒ les techniques utilisées pour les DRM restreignent-elles l'accès aujourd'hui ou à l'avenir ? Dépendent-elles d'autres outils extérieurs ?

Métadonnées pour décrire les DR : METSRights, WrML, PREMIS, ODRL

Les DRM fonctionnent avec 3 composantes : le contenu, la transaction (licence…), et l'utilisateur ⇒ l'utilisateur ne peut accéder au contenu que si les 3 composantes sont en interaction entre elles.

Recommandations :
☞identifier les droits liés à un contenu et les documenter ;
☞garantir l'accès, sur le long terme, à la documentation sur les droits, mettre à jour, lier le système d'accès et les droits ;
☞informer l'usager ;
☞identifier les DRM liés à un contenu ⇒ voir comment on réagit : refuser les contenus avec DRM par exemple, et demander au fournisseur une version du contenu sans DRM
☜si on accepte des contenus avec DRM : archiver les contenus et documenter les types de DRM utilisés
☞simplifier les circuits, les outils ! Imposer ses outils et ses exigences aux fournisseurs extérieurs pour ne pas dépendre d'eux
☛utiliser des outils standards
☞avoir une “DRM and Rights Policy” et la publier ⇒ permet de créer de la confiance avec les créateurs de données
☛informer les créateurs de données des risques des DRM pour l'archivage à long terme

Consulter le rapport sur le site d'APARSEN (et notamment les recommandations)

SCAPE PROJECT :

Projet de recherche sur les computing intensive processes pour l'archivage numérique et la numérisation. Projet FP7

Pour les projets de numérisation à grande échelle : besoin de solutions automatisées pour le contrôle qualité

Projet SCAPE : expériences menées sur la détection automatique des doigts sur les pages numérisées, sur la détection automatique des erreurs de centrage, sur la détection automatique des “quasi doublons” (ex : même image mais formats différents)
⇒montrent que ces solutions automatisées, basées sur les techniques d'analyse d'image, sont plus efficaces que les méthodes manuelles par sondage.

Objectif : gagner du temps par rapport à un contrôle qualité manuel.

Certains outils arrivent sur le marché. Possible de les intégrer aux scanners.

Utilisation des outils de SCAPE à la bibliothèque nationale d'Autriche :

Utilisation jusqu'alors de MySQL mais devenu insuffisant : la BN n'a pas réussi à créer un index unique de la web-archive en utilisant MySQL car les performances sont insuffisantes

Les bases de données relationnelles sont insuffisantes pour les projets du big data.

Pour le stockage : choix de la solution HADOOP (Apache) : possible de travailler sur les données et de les stocker en même temps, sans avoir besoin de les copier ⇒ on amène le programme de traitement au serveur de stockage, au lieu de faire l'inverse (copier les données là où se trouve le programme de traitement)

bring the processor to the data

. HADOOP : stockage redondant de blocs de données (3 copies par défaut). Stockage distribué et traitement distribué

Outils de SCAPE utilisés par la bib ; ToMaR, MatchBox…

Outils utilisés pour la migration des fichiers du dépôt légal du web : pas forcément adaptés pour des petites masses de données.