Différences

Ci-dessous, les différences entre deux révisions de la page.

--- aoc:stage-enssib-donnees-recherche-07062016 [2016/06/07 15:57]
Adeline Rege [Francis André (CNRS) : données de la recherche et science ouverte, enjeux et perspectives]
+++ aoc:stage-enssib-donnees-recherche-07062016 [2016/06/15 12:17] (Version actuelle)
Adeline Rege [INIST]
@@ Ligne 70: / Ligne 70: @@
 Travail en cours sur un cahier des charges pour un entrepôt de données : quels services en fonction de la nature des données qui sont hébergées dans l'entrepôt ? Le cahier des charges va définir les différents niveaux de sécurisation à appliquer en fonction du degré de sensibilité de la donnée. Réflexion sur solution de stockage distribué.
+Offre de services à l'INRA :\\
+- attribution de DOI via l'INIST: l'INIST fournit le préfixe du DOI, et l'établissement (ex : l'INRA, l'Unistra) gère les suffixes et déclare les DOI auprès de Datacite pour qu'ils soient fonctionnels. Une application permet de gérer les demandes, qui sont traitées par un guichet unique de documentalistes. Tout type de donnée peut avoir un DOI (base de données, site web...). Permet d'avoir un point d'entrée pour les chercheurs, et permet aux documentalistes d'entrer en relation avec les chercheurs\\
+- site web d'info et de communication avec politique, veille, boîte à outils\\
+- DMP : trame type testée sur des "groupes données" et aide à la saisie avec DMPOnline (intégration de la trame type dans DMPOnline). Tests ont montré que le DMP ne peut pas être rempli par une seule compétence, c'est-à-dire par le chercheur seul : besoin accompagnement et aide de l'IST et de la DSI.\\
+- portail des données : identification des données (DOI, métadonnées...), annuaire, entrepôt. N'a pas vocation à stocker toutes les données produites à l'INRA. Le portail pourra héberger des données qui soutiennent des publications.\\
+- service de questions/réponses : accompagnement des chercheurs. Les questions sont traitées par IST avec aide d'autres compétences (juristes...) si besoin.\\
+- formations : service à développer. Formations courtes (1h), tutoriels, modules d'autoformation, séminaires...En lien avec DoraNum. INRA serait fournisseur de contenus pour DoraNum.
+Apports possibles de l'IST :\\
+- contribuer à l'émergence d'une politique institutionnelle\\
+- aider à définir les stratégies de publication/valoriser\\
+- recenser et valoriser les sources de données\\
+- intervenir dans la gestion des données : métadonnées, DOI, interopérabilité\\
+- sensibiliser, former\\
+- relayer les bonnes pratiques
+Nouvelles compétences :\\
+- identifiants\\
+- métadonnées spécifiques\\
+- nouvelles voies de publication (data journals)\\
+- connaissance des entrepôts\\
+- ontologies, standards, linked open data
+Les points d'entrée pour l'IST :\\
+- partage de données soutenant une publication, par exemple parce que l'éditeur demande de déposer les données dans un entrepôt\\
+- besoin d'un DOI\\
+- intérêt pour les data papers : permet aux ingénieurs et à ceux qui travaillent avec des données expérimentales de valoriser leur travail
+Pôle données de la recherche au sein de la DIST de l'INRA : deux objectifs\\
+- favoriser la montée en compétences des membres du pôle (formation...)\\ 1 réunion par mois, avec un focus sur un sujet (DOI, DMP...). + Formations en interne sur certains sujets (aspects juridiques...) + financement de participation à des colloques et séminaires + veille partagée\\
+- offrir des services aux chercheurs
+☛Bcp d'actions possibles. Les personnels IST ont des atouts et un socle de compétences qui peuvent être mobilisées mais doivent aussi développer de nouvelles compétences.
+===== Les données de la recherche au centre de calcul de l'IN2P3 =====
+En astrophysique, la règle est de rendre publiques les données au bout d'un an.
+Stockage distribué, masse de données, collaborateurs dans le monde entier, outils informatiques hétérogènes ⇒la bonne gestion des données numériques est cruciale.
+Données orphelines : données produites par un chercheur qui quitte son labo, son projet, et qui laisse ses données. Une bonne gestion des données permet de continuer à les exploite après la fin des projets : il peut se passer 2 ou 3 entre la fin des expériences et la publication des derniers articles.
+Ne pas refaire les mêmes expériences est devenu un prérequis éthique dans certaines disciplines (notamment pour les expériences pour les animaux).
+IN2P3 : devient centre de calcul national, donc s'ouvre à plusieurs disciplines (SHS, biologie...).
+IN2P3 utilise disques et surtout bandes magnétiques (moins chères et plus sûres) pour stockage. Double copie ou réplication (deux ou trois fois) sur stockage distribué. Stockage des données mais aussi du code informatique dans ses différentes versions nécessaire pour les utiliser.
+Les données doivent être anonymisées avant d'arriver à l'IN2P3.
+Types de fichiers : les données avec tout type de format, les programmes informatiques, les systèmes d'exploitation, codes de gestion du workflow de traitement des données.
+Chaque projet devrait définir un DMP, mais pas vraiment de DMP demandé par l'IN20P3, mais existence d'un DMP par défaut :\\
+- recopie des données sur des supports récents\\
+- données accessibles pendant la durée du projet\\
+- suivant le type de donnée, orientation vers tel ou tel type de technologie\\
+- un responsable des données par projet : définir avec l'IN2P3 comment les données vont être gérées, déterminer les utilisateurs et leurs droits\\
+- respect des memorandum of understanding existants dans certaines disciplines\\
+Depuis deux ans, réflexion sur la bonne gestion des données : mise en place d'un DMP, sur exemple du DMP Univ of Michigan, expertisé par l'INIST. Certains points du DMP seront pré-remplis (ex : durée de rétention) et seront donc des prérequis pour utiliser les services de l'IN2P3 (éviter le sur-mesure). Objectif : utiliser le DMP cette année, et utiliser DMPOnline ou DMPTool. Objectif de mise à jour des DMP chaque  année.\\
+Difficulté : suivi et application correcte du DMP. Besoin de traduire le contenu du DMP (texte) en règles informatiques pour automatiser le processus de suivi, mais n'existe pas à l'heure actuelle et DMP trop pauvre dans sa forme actuelle.
+Dans ces disciplines, l'archivage pérenne a-t-il un sens dans la mesure où la transmission orale est très fréquente ? Quid de la connaissance des données, de l'expertise sur les instruments de mesure et de recherche et sur le code ? Comment garantir que les formats seront encore accessibles dans dix ans ? L'open data et l'archivage pérenne n'ont aucun sens dans certaines disciplines qui produisent des données avec des instruments propriétaires dans des formats propriétaires (ex : imagerie résonance magnétique). Publier les données, les fournir à la communauté nécessite un énorme travail, mais pour l'instant les chercheurs n'en retirent aucune reconnaissance.
+Pas de stockage au sens archivistique du terme.
+Inventaire des données réalisé quotidiennement. Point annuel sur les données avec les responsables des données pour identifier les actions de curation prioritaires.
+===== Huma-Num =====
+Ce qui intéresse Huma-Num : le projet de recherche. 1ere couche : les consortia, animés par les disciplines. 2e couche : outils et services disponibles pour les consortia. 3e couche : réseau européen.
+consortia, composés de 120 unités de recherche. Le SCD de Bdx-Montaigne est membre d'un consortium. Consortium labellisé pour 4 ans, avec financement d'Huma-Num pour sa coordination. 9 consortia ancrés dans les MSH.
+Outils et services :\\
+- stocker\\
+mettre en sécurité une copie intégrale des données en HD en dehors de son ordi, de son labo. Plateforme Sharedoc de stockage structurée par le chercheur ou par le groupe de recherche. Le chercheur peut avoir son compte sur la plateforme pour synchroniser son disque dur. Plateforme pour stocker et pour partager les données. Services de traitement de la données branchés sur l'espace de stockage (conversion, OCR, outil de gestion des BDD..). Seulement une copie d'un disque dur, le chercheur organise son espace comme il veut, on ne lui demande aucune métadonnée. + Seafile ! Il est possible de transférer ces fichiers de Seafile vers Sharedoc.\\
+- traiter\\
+outils peuvent être branchés aux outils de stockage ou utilisés seuls en ligne de commande. Outils de gestion des BDD, OCR, conversion de formats...\\
+- diffuser\\
+sous la forme d'un site web pour valoriser un projet et un corpus. Anticiper les questions de conservation des données en fonction des besoins d'éditorialisation de ces données. Bonnes pratiques : distinguer la gestion et le stockage des données et leur éditorialisation (éviter d'enchasser ses données dans un site web car problème lors des mises à jour). ArkeoGIS : né à la MISHA, mais migré à Huma-Num.\\
+- exposer : diffuser sous la forme d'un site web ne suffit pas car les technologies vieillissent. Site web important pour valorisation, mais fondamental de séparer les données/leur documentation et leur éditorialisation (évolutif, peu pérenne). Le web n'est qu'un vecteur de diffusion des données. Mise au point du service Nakala : espace dans lequel les chercheurs peuvent déposer et documenter leurs données (on demande aux chercheurs d'ajouter des métadonnées aux fichiers de données, contrairement à l'espace de stockage) avec vocabulaire DCTerms. Quand on dépose un fichier dans Nakala : attribution d'un identifiant handle, préparation pour archivage au CINES du fichier (test éligibilité des fichiers), vocabulaire DCTerms pour les métadonnées, OAI-PMH, consersion RDF des métadonnées triple store), outil de chargement des lots (possible de brancher un outil de GED comme Nuxeo), API, branchement fédération d'identité. Nakala peut s'interconnecter avec nombreux logiciels d'édition électronique de données (Omeka, Drupal...). N'importe quel projet de recherche peut demander un compte Nakala, une bibliothèque peut demander un compte. Projet de passer Nakala au niveau européen, mais pour l'instant pas de dispositif européen pour financer à long terme Nakala à l'échelle européen : installation d'instances de Nakala dans des universités dans toute l'Europe, gérées par les équipes locales. Nakala pas labellisé par Data Seal of Approval mais correspond aux critères. Nakala fonctionne avec Isidore, qui est le moteur de recherche de Nakala. + utilisation d'Omeka comme CMS pour diffuser les données avec modules Nakala-Omeka pour importer/exporter des données (plutôt destiné aux "débutants", aux chercheurs qui n'ont ni bibliothécaire ni informaticien, mais une version ouverte est disponible pour ceux qui ont des informaticiens). 2 consortia Huma-Num travaillent sur un plug-in Nakala pour Drupal. Si on veut utiliser un autre CMS, on peut interroger Nakala par l'API ou l'OAI-PMH pour pointer vers Nakala depuis son CMS. Possible de combiner nakala avec un entrepôt local, par exemple pour sauvegarder tout ou partie des données qu'on a aussi en local : prévoir passerelle entre l'AO et Nakala\\
+- archiver\\
+convention avec le CINES\\
+- signaler\\
+Isidore. API pour se personnaliser un moteur de recherche et l'intégrer dans son site web.
+Pas de rupture de charge depuis vingt ans sur les différents dispositifs qui se sont succédé dans les humanités numériques ⇒dispositifs fiables, mais à condition qu'on s'en occupe tout le temps. TGIR : montre qu'il est stratégique que les SHS s'occupent de leurs données numériques.
+Au niveau européen :\\
+Participation à DARIAH-EU et à CLARIN. Projet Humanities at Scale : interopérabilité entre les systèmes comme Nakala, notamment pour aligner les thésaurus, les référentiels.
+Dans les réponses aux appels à projets, il est important d'expliquer le processus d'archivage : il n'est pas possible de gérer l'archivage pérenne, par exemple, pendant la durée d'un projet. En revanche, il faut montrer quel workflow on va mettre en place, avec les différentes phases.
+===== Cadre juridique des données de la recherche =====
+En l'absence de texte réglementaire sur les données de la recherche, le cadre juridique dépendra de la nature de la donnée. Pas de distinction entre les données brutes, les données élaborées et les métadonnées.
+il n'y a pas de droit de propriété intellectuelle sur la donnée, considérée comme une information "de libre parcours", mais il y a deux exceptions :\\
+- données soumises au droit d'auteur : attention au TDM\\
+- données organisées en bases de données : droit sui generis des bases de données. Dans la majorité des cas, le droit revient à l'investisseur, le plus souvent l'établissement employeur.
+Loi CADA modifiée par loi Valter 28/12/2015 qui transpose la directive européenne Public Sector Information. La loi Valter inclut l'ESR dans son champ d'application. Le Code de la Recherche dit que l'on doit organiser "l'accès libre aux données scientifiques et aux publications".
+Projet de loi Lemaire : choix de la licence parmi une liste publiée par décret ⇒les CC seront-elles dans le décret ?
+☛Auditer et examiner chaque type de données et s'assurer que l'open data s'applique ⇒qui ? Comment ? Quelle organisation, quelles compétences et quels moyens au sein des institutions ?
+☛Utiliser les DMP pour sensibiliser les chercheurs : par exemple, compléter les DMP avec des warnings sur les données sensibles, les données sécurité (avec la collaboration du CIL et du fonctionnaire sécurité défense)
+Institutions publiques de recherche soumises à injonctions contradictoires : valorisation économique avec brevets d'un côté, et open data de l'autre.
+Licence CC-0 pose problème en droit d'auteur français/européen car pas de reconnaissance du droit moral.
+Politique d'open data ne peut pas s'affranchir de la question de l'entrepôt, notamment en l'absence d'entrepôt disciplinaire reconnu.
+CNRS et CERAPS (labo) annoncent parution d'un guide sur Informatique & Libertés en recherche SHS pour la rentrée.
+===== André Dazy (Couperin) : Les données de la recherche dans les projets européens =====
+cf film de Julien Sicot qui explique comment récupérer les publications de son établissement qui doivent être envoyées dans OpenAIRE. Suivre les guidelines pour que son AO soit moissonnée.
+En 10 ans, passage de "best effort" à "must" dans les consignes de l'UE.
+Données : déposer données et métadonnées associées, avec DMP et informations sur les instruments utilisés pour obtenir ces données.
+Entrepôt Zenodo créé pour déposer les données dans le cadre de H2020, et pour les chercheurs qui n'ont pas d'AO institutionnelle.
+OpenAIRE s'appuie sur le schéma de métadonnées Datacite v.3.0 (permet moissonnage)
+Réunion cette semaine Couperin, ORCID et partenaires sur l'utilisation d'ORCID en France.
+Dans H2020-OpenAIRE, 10 work packages concernent les données de la recherche :\\
+- questions juridiques (WP7) : deux études menées sur la protection des données et l'information du public, afin d'orienter les chercheurs pour savoir si ils peuvent diffuser leurs données ou opt-out :\\
+- Zenodo :\\
+services pour chercheurs qui n'ont pas d'AOI. + service d'anonymisation\\
+- formation et aide à la gestiondes données :\\
+dépôt de tutoriels et de docs de travail (exemple de DMP) sur Foster, helpdesk
+Couperin a recensé les projets ayant choisi l'option pilote (619 projets français en mars 2016). Identification des publications et des données qui sont liées. Contact avec les porteurs de projets et travail avec les responsables d'archives ouvertes pour les rendre interopérables avec OpenAIRE (Seanoe de l'IFREMER est la première AO compatible).
+===== Le métier de data librarian à l'EPFL =====
+Pas d'obligation d'open data en Suisse. Approche pragmatique.
+Acteurs à l'EPFL : chercheurs, bibliothèque, vice-présidence SI, Research Office\\
+Research Office assure suivi des obligations par rapport aux financeurs
+Etre capable de répondre à des questions très diverses selon les disciplines et les niveaux.
+Bib EPFL rattachée directement à la VP Recherche, comme le research office. A permis de mettre l'accent sur les services de soutien aux étudiants et aux chercheurs. Permet meilleure reconnaissance de la bib comme soutien à la recherche.\\
+"One stop shop" pour le soutien à la recherche : droits d'auteur, TDM, publications, données de la recherche. intération entre les facultés et la bibliothèque assurée par les bibliothécaires de liaison.\\
+Soutien et accompagnement sur mesure si possible.
+Réflexion a démarré en 2012 : volonté forte de la bib de se positionner car changement de paradigme dans le métier de bibliothécaire. Bib : accompagner et soutenir le chercheur en tant que producteur de l'information. Fin 2013 : recrutement de 2x0,2 ETP pour RDM, mais pas de soutien fort de la direction de l'EPFL avant 2015. Renforcement de l'équipe : 3 ETP. Mise en place des services en 2015 suite à décision de la direction de l'EPFL de mettre en place service de rédaction de DMP avec participation de la bib. Environ 5000 doctorants et chercheurs.
+Projet national suisse DLCM : mutualisation et répartition des efforts. Ex : EPFL s'occupe des politiques et des guidelines. Tous les livrables seront regroupés dans un portail national fin 2016 : avoir tous les outils pour accompagner les chercheurs durant tout le cycle de vie de la donnée.
+Création d'une base de données interne pour regrouper les politiques données de la recherche des financeurs de l'EPFL et des éditeurs les plus utilisés par les chercheurs de l'EPFL.
+Analyse de profils de poste :\\
+- bcp de profils hybrides : disciplines+doc. Demandes d'expérience. Profils larges : les données sont vues au sens large, données acquises et produites\\
+- métadonnées, standards...\\
+- compétences transversales : travail collaboratif, gestion de projet, communication, relationnel...
+Bib de liaison EPFL ont parfois doctorat dans une discipline. Complémentarité des compétences. Peu de formations dans le domaine, on apprend en faisant.
+===== Les données de la recherche à l'INIST =====
+Construction d'une culture de la donnée chez les documentalistes
+Participer aux réseaux et consortiums : réseau BDD de l'INIST (GT métadonnées et interopérabilité), Datacite (GT métadonnées), RDA.
+DoraNum : produire des tutoriels à distance. Apprentissage à distance, entretiens, infographies... Plusieurs thématiques : aide au dépôt, questions juridiques...
+Aider les chercheurs à structurer leur documentation afin que les données soient accessibles et utilisables à l'avenir à caque étape du cycle de vie des données. Importance de la description de chaque étape du cycle de vie. Quand le chercheur utilise des outils locaux (ex : convention de nommage "maison"), il vaut mieux commencer par tenir compte de ses besoins, donc lui permettre de continuer à conserver ses pratiques, tout en l'amenant progressivement à utiliser des standards internationaux.
+Services INIST :\\
+- assistance pour l'attribution d'identifiants pérennes\\
+- conception d'une plateforme de stockage et de partage de matériels d'étude\\
+- aide à la rédaction de DMP
+Hébergement d'une instance de DMPOnline à l'INIST pour l'ESR. Utilisation gratuite pour l'ESR. Personnalisation et aide à l'élaboration de DMP. Accompagnement en fonction des besoins. Perspective : intégration de DMPOnline avec les outils de gestion des données des labos pour éviter saisies multiples. Souhait de contribuer à la communauté d'utilisateurs et de développeurs de DMPOnline.
+Commencer par aider les chercheurs à avoir des données bien structurées et documentées avec métadonnées, standards...Première étape essentielle avant d'envisager des solutions de visualisation. Auditer les données : pouvoir dire aux chercheurs ce qui a déjà été fait et ce qui reste à faire. S'appuyer sur des exemples. Avant de parler du partage des données, il vaut mieux commencer par montrer l'intérêt de la réutilisation future de ses propres données par le chercheur lui-même.
+Promouvoir l'interopérabilité par l'échange au niveau de l'établissement, au niveau local, national, européen, international.
+Temps de maturation important chez les chercheurs.
+on n'est pas des spécialistes scientifiques, on apporte surtout de la méthodologie. Susciter le questionnement chez le chercheur et chez le documentaliste.
+===== les DMP =====
+H2020 : déjà donner infos sur la gestion des données dans la demande de financement, avant de fournir un DMP
+Coûts engendrés par les gestion des données : dépôt si payant, temps de travail d'un bibliothécaire, formation...
+Voir video sur youtube "what why how of data management planning ? (Research Data Netherlands)
+EPFL a élaboré un data management template et une checklist abordant l'acquisition, le format, le partage et la préservation des données. Le template est une première étape préalable à la rédaction du DMP. Important de travailler en équipe multicompétences (doc pour la méthodologie, informaticien pour la technique).
+Métadonnées : inciter les chercheurs à utiliser le metadata standards directory de RDA.\\
+formats : recommander les formats recommandés par la Libray of congress. format ouvert, international...\\
+entrepôt : utiliser RE3DATA. Normes, certifications, reconnaissance par la communauté disciplinaire\\
+- contraintes légales, licence pertinente. Questions éthiques : la bib renvoie vers le research office
+Pour chaque projet déposé au research office, le research office renvoie vers la bib.
+Bib de liaison EPFL : travaille avec une faculté qui comprend 3 instituts de recherche. 12 projets RDM accompagnés. Actions : soutien à la rédaction du chapitre "données" dans la soumission, aide à l'écriture du DMP, conseils techniques, formations (formation sur mesure pour certains labos)
+Travail bib de liaison/équipe RDM : les demandes des chercheurs arrivent au service RDM qui les analysent. Travail en commun : rédaction DMP ensemble, relecture DMP ensemble, formations ensemble. Associer compétences complémentaires : le bib de liaison connaissances de la disciplines, le bib RDM connaissances méthodologiques.
+Adapter DMP à ses besoins. Utiliser les demandes de visualisation/éditorialisation des chercheurs comme point d'entrée pour travailler avec eux sur la bonnes gestion de leurs données.

Wiki SBU

Outils pour utilisateurs

Outils du site

Différences

Outils de la page