Différences

Ci-dessous, les différences entre deux révisions de la page.

--- aoc:stage-enssib-donnees-recherche-07062016 [2016/06/08 10:34]
Adeline Rege [Esther Dzalé Yeumo : Données de la recherche et recherche agronomique]
+++ aoc:stage-enssib-donnees-recherche-07062016 [2016/06/15 12:17] (Version actuelle)
Adeline Rege [INIST]
@@ Ligne 105: / Ligne 105: @@
 ☛Bcp d'actions possibles. Les personnels IST ont des atouts et un socle de compétences qui peuvent être mobilisées mais doivent aussi développer de nouvelles compétences.
-===== IN2P3 =====
+===== Les données de la recherche au centre de calcul de l'IN2P3 =====
 En astrophysique, la règle est de rendre publiques les données au bout d'un an.
@@ Ligne 137: / Ligne 137: @@
 Inventaire des données réalisé quotidiennement. Point annuel sur les données avec les responsables des données pour identifier les actions de curation prioritaires.
+===== Huma-Num =====
+Ce qui intéresse Huma-Num : le projet de recherche. 1ere couche : les consortia, animés par les disciplines. 2e couche : outils et services disponibles pour les consortia. 3e couche : réseau européen.
+consortia, composés de 120 unités de recherche. Le SCD de Bdx-Montaigne est membre d'un consortium. Consortium labellisé pour 4 ans, avec financement d'Huma-Num pour sa coordination. 9 consortia ancrés dans les MSH.
+Outils et services :\\
+- stocker\\
+mettre en sécurité une copie intégrale des données en HD en dehors de son ordi, de son labo. Plateforme Sharedoc de stockage structurée par le chercheur ou par le groupe de recherche. Le chercheur peut avoir son compte sur la plateforme pour synchroniser son disque dur. Plateforme pour stocker et pour partager les données. Services de traitement de la données branchés sur l'espace de stockage (conversion, OCR, outil de gestion des BDD..). Seulement une copie d'un disque dur, le chercheur organise son espace comme il veut, on ne lui demande aucune métadonnée. + Seafile ! Il est possible de transférer ces fichiers de Seafile vers Sharedoc.\\
+- traiter\\
+outils peuvent être branchés aux outils de stockage ou utilisés seuls en ligne de commande. Outils de gestion des BDD, OCR, conversion de formats...\\
+- diffuser\\
+sous la forme d'un site web pour valoriser un projet et un corpus. Anticiper les questions de conservation des données en fonction des besoins d'éditorialisation de ces données. Bonnes pratiques : distinguer la gestion et le stockage des données et leur éditorialisation (éviter d'enchasser ses données dans un site web car problème lors des mises à jour). ArkeoGIS : né à la MISHA, mais migré à Huma-Num.\\
+- exposer : diffuser sous la forme d'un site web ne suffit pas car les technologies vieillissent. Site web important pour valorisation, mais fondamental de séparer les données/leur documentation et leur éditorialisation (évolutif, peu pérenne). Le web n'est qu'un vecteur de diffusion des données. Mise au point du service Nakala : espace dans lequel les chercheurs peuvent déposer et documenter leurs données (on demande aux chercheurs d'ajouter des métadonnées aux fichiers de données, contrairement à l'espace de stockage) avec vocabulaire DCTerms. Quand on dépose un fichier dans Nakala : attribution d'un identifiant handle, préparation pour archivage au CINES du fichier (test éligibilité des fichiers), vocabulaire DCTerms pour les métadonnées, OAI-PMH, consersion RDF des métadonnées triple store), outil de chargement des lots (possible de brancher un outil de GED comme Nuxeo), API, branchement fédération d'identité. Nakala peut s'interconnecter avec nombreux logiciels d'édition électronique de données (Omeka, Drupal...). N'importe quel projet de recherche peut demander un compte Nakala, une bibliothèque peut demander un compte. Projet de passer Nakala au niveau européen, mais pour l'instant pas de dispositif européen pour financer à long terme Nakala à l'échelle européen : installation d'instances de Nakala dans des universités dans toute l'Europe, gérées par les équipes locales. Nakala pas labellisé par Data Seal of Approval mais correspond aux critères. Nakala fonctionne avec Isidore, qui est le moteur de recherche de Nakala. + utilisation d'Omeka comme CMS pour diffuser les données avec modules Nakala-Omeka pour importer/exporter des données (plutôt destiné aux "débutants", aux chercheurs qui n'ont ni bibliothécaire ni informaticien, mais une version ouverte est disponible pour ceux qui ont des informaticiens). 2 consortia Huma-Num travaillent sur un plug-in Nakala pour Drupal. Si on veut utiliser un autre CMS, on peut interroger Nakala par l'API ou l'OAI-PMH pour pointer vers Nakala depuis son CMS. Possible de combiner nakala avec un entrepôt local, par exemple pour sauvegarder tout ou partie des données qu'on a aussi en local : prévoir passerelle entre l'AO et Nakala\\
+- archiver\\
+convention avec le CINES\\
+- signaler\\
+Isidore. API pour se personnaliser un moteur de recherche et l'intégrer dans son site web.
+Pas de rupture de charge depuis vingt ans sur les différents dispositifs qui se sont succédé dans les humanités numériques ⇒dispositifs fiables, mais à condition qu'on s'en occupe tout le temps. TGIR : montre qu'il est stratégique que les SHS s'occupent de leurs données numériques.
+Au niveau européen :\\
+Participation à DARIAH-EU et à CLARIN. Projet Humanities at Scale : interopérabilité entre les systèmes comme Nakala, notamment pour aligner les thésaurus, les référentiels.
+Dans les réponses aux appels à projets, il est important d'expliquer le processus d'archivage : il n'est pas possible de gérer l'archivage pérenne, par exemple, pendant la durée d'un projet. En revanche, il faut montrer quel workflow on va mettre en place, avec les différentes phases.
+===== Cadre juridique des données de la recherche =====
+En l'absence de texte réglementaire sur les données de la recherche, le cadre juridique dépendra de la nature de la donnée. Pas de distinction entre les données brutes, les données élaborées et les métadonnées.
+il n'y a pas de droit de propriété intellectuelle sur la donnée, considérée comme une information "de libre parcours", mais il y a deux exceptions :\\
+- données soumises au droit d'auteur : attention au TDM\\
+- données organisées en bases de données : droit sui generis des bases de données. Dans la majorité des cas, le droit revient à l'investisseur, le plus souvent l'établissement employeur.
+Loi CADA modifiée par loi Valter 28/12/2015 qui transpose la directive européenne Public Sector Information. La loi Valter inclut l'ESR dans son champ d'application. Le Code de la Recherche dit que l'on doit organiser "l'accès libre aux données scientifiques et aux publications".
+Projet de loi Lemaire : choix de la licence parmi une liste publiée par décret ⇒les CC seront-elles dans le décret ?
+☛Auditer et examiner chaque type de données et s'assurer que l'open data s'applique ⇒qui ? Comment ? Quelle organisation, quelles compétences et quels moyens au sein des institutions ?
+☛Utiliser les DMP pour sensibiliser les chercheurs : par exemple, compléter les DMP avec des warnings sur les données sensibles, les données sécurité (avec la collaboration du CIL et du fonctionnaire sécurité défense)
+Institutions publiques de recherche soumises à injonctions contradictoires : valorisation économique avec brevets d'un côté, et open data de l'autre.
+Licence CC-0 pose problème en droit d'auteur français/européen car pas de reconnaissance du droit moral.
+Politique d'open data ne peut pas s'affranchir de la question de l'entrepôt, notamment en l'absence d'entrepôt disciplinaire reconnu.
+CNRS et CERAPS (labo) annoncent parution d'un guide sur Informatique & Libertés en recherche SHS pour la rentrée.
+===== André Dazy (Couperin) : Les données de la recherche dans les projets européens =====
+cf film de Julien Sicot qui explique comment récupérer les publications de son établissement qui doivent être envoyées dans OpenAIRE. Suivre les guidelines pour que son AO soit moissonnée.
+En 10 ans, passage de "best effort" à "must" dans les consignes de l'UE.
+Données : déposer données et métadonnées associées, avec DMP et informations sur les instruments utilisés pour obtenir ces données.
+Entrepôt Zenodo créé pour déposer les données dans le cadre de H2020, et pour les chercheurs qui n'ont pas d'AO institutionnelle.
+OpenAIRE s'appuie sur le schéma de métadonnées Datacite v.3.0 (permet moissonnage)
+Réunion cette semaine Couperin, ORCID et partenaires sur l'utilisation d'ORCID en France.
+Dans H2020-OpenAIRE, 10 work packages concernent les données de la recherche :\\
+- questions juridiques (WP7) : deux études menées sur la protection des données et l'information du public, afin d'orienter les chercheurs pour savoir si ils peuvent diffuser leurs données ou opt-out :\\
+- Zenodo :\\
+services pour chercheurs qui n'ont pas d'AOI. + service d'anonymisation\\
+- formation et aide à la gestiondes données :\\
+dépôt de tutoriels et de docs de travail (exemple de DMP) sur Foster, helpdesk
+Couperin a recensé les projets ayant choisi l'option pilote (619 projets français en mars 2016). Identification des publications et des données qui sont liées. Contact avec les porteurs de projets et travail avec les responsables d'archives ouvertes pour les rendre interopérables avec OpenAIRE (Seanoe de l'IFREMER est la première AO compatible).
+===== Le métier de data librarian à l'EPFL =====
+Pas d'obligation d'open data en Suisse. Approche pragmatique.
+Acteurs à l'EPFL : chercheurs, bibliothèque, vice-présidence SI, Research Office\\
+Research Office assure suivi des obligations par rapport aux financeurs
+Etre capable de répondre à des questions très diverses selon les disciplines et les niveaux.
+Bib EPFL rattachée directement à la VP Recherche, comme le research office. A permis de mettre l'accent sur les services de soutien aux étudiants et aux chercheurs. Permet meilleure reconnaissance de la bib comme soutien à la recherche.\\
+"One stop shop" pour le soutien à la recherche : droits d'auteur, TDM, publications, données de la recherche. intération entre les facultés et la bibliothèque assurée par les bibliothécaires de liaison.\\
+Soutien et accompagnement sur mesure si possible.
+Réflexion a démarré en 2012 : volonté forte de la bib de se positionner car changement de paradigme dans le métier de bibliothécaire. Bib : accompagner et soutenir le chercheur en tant que producteur de l'information. Fin 2013 : recrutement de 2x0,2 ETP pour RDM, mais pas de soutien fort de la direction de l'EPFL avant 2015. Renforcement de l'équipe : 3 ETP. Mise en place des services en 2015 suite à décision de la direction de l'EPFL de mettre en place service de rédaction de DMP avec participation de la bib. Environ 5000 doctorants et chercheurs.
+Projet national suisse DLCM : mutualisation et répartition des efforts. Ex : EPFL s'occupe des politiques et des guidelines. Tous les livrables seront regroupés dans un portail national fin 2016 : avoir tous les outils pour accompagner les chercheurs durant tout le cycle de vie de la donnée.
+Création d'une base de données interne pour regrouper les politiques données de la recherche des financeurs de l'EPFL et des éditeurs les plus utilisés par les chercheurs de l'EPFL.
+Analyse de profils de poste :\\
+- bcp de profils hybrides : disciplines+doc. Demandes d'expérience. Profils larges : les données sont vues au sens large, données acquises et produites\\
+- métadonnées, standards...\\
+- compétences transversales : travail collaboratif, gestion de projet, communication, relationnel...
+Bib de liaison EPFL ont parfois doctorat dans une discipline. Complémentarité des compétences. Peu de formations dans le domaine, on apprend en faisant.
+===== Les données de la recherche à l'INIST =====
+Construction d'une culture de la donnée chez les documentalistes
+Participer aux réseaux et consortiums : réseau BDD de l'INIST (GT métadonnées et interopérabilité), Datacite (GT métadonnées), RDA.
+DoraNum : produire des tutoriels à distance. Apprentissage à distance, entretiens, infographies... Plusieurs thématiques : aide au dépôt, questions juridiques...
+Aider les chercheurs à structurer leur documentation afin que les données soient accessibles et utilisables à l'avenir à caque étape du cycle de vie des données. Importance de la description de chaque étape du cycle de vie. Quand le chercheur utilise des outils locaux (ex : convention de nommage "maison"), il vaut mieux commencer par tenir compte de ses besoins, donc lui permettre de continuer à conserver ses pratiques, tout en l'amenant progressivement à utiliser des standards internationaux.
+Services INIST :\\
+- assistance pour l'attribution d'identifiants pérennes\\
+- conception d'une plateforme de stockage et de partage de matériels d'étude\\
+- aide à la rédaction de DMP
+Hébergement d'une instance de DMPOnline à l'INIST pour l'ESR. Utilisation gratuite pour l'ESR. Personnalisation et aide à l'élaboration de DMP. Accompagnement en fonction des besoins. Perspective : intégration de DMPOnline avec les outils de gestion des données des labos pour éviter saisies multiples. Souhait de contribuer à la communauté d'utilisateurs et de développeurs de DMPOnline.
+Commencer par aider les chercheurs à avoir des données bien structurées et documentées avec métadonnées, standards...Première étape essentielle avant d'envisager des solutions de visualisation. Auditer les données : pouvoir dire aux chercheurs ce qui a déjà été fait et ce qui reste à faire. S'appuyer sur des exemples. Avant de parler du partage des données, il vaut mieux commencer par montrer l'intérêt de la réutilisation future de ses propres données par le chercheur lui-même.
+Promouvoir l'interopérabilité par l'échange au niveau de l'établissement, au niveau local, national, européen, international.
+Temps de maturation important chez les chercheurs.
+on n'est pas des spécialistes scientifiques, on apporte surtout de la méthodologie. Susciter le questionnement chez le chercheur et chez le documentaliste.
+===== les DMP =====
+H2020 : déjà donner infos sur la gestion des données dans la demande de financement, avant de fournir un DMP
+Coûts engendrés par les gestion des données : dépôt si payant, temps de travail d'un bibliothécaire, formation...
+Voir video sur youtube "what why how of data management planning ? (Research Data Netherlands)
+EPFL a élaboré un data management template et une checklist abordant l'acquisition, le format, le partage et la préservation des données. Le template est une première étape préalable à la rédaction du DMP. Important de travailler en équipe multicompétences (doc pour la méthodologie, informaticien pour la technique).
+Métadonnées : inciter les chercheurs à utiliser le metadata standards directory de RDA.\\
+formats : recommander les formats recommandés par la Libray of congress. format ouvert, international...\\
+entrepôt : utiliser RE3DATA. Normes, certifications, reconnaissance par la communauté disciplinaire\\
+- contraintes légales, licence pertinente. Questions éthiques : la bib renvoie vers le research office
+Pour chaque projet déposé au research office, le research office renvoie vers la bib.
+Bib de liaison EPFL : travaille avec une faculté qui comprend 3 instituts de recherche. 12 projets RDM accompagnés. Actions : soutien à la rédaction du chapitre "données" dans la soumission, aide à l'écriture du DMP, conseils techniques, formations (formation sur mesure pour certains labos)
+Travail bib de liaison/équipe RDM : les demandes des chercheurs arrivent au service RDM qui les analysent. Travail en commun : rédaction DMP ensemble, relecture DMP ensemble, formations ensemble. Associer compétences complémentaires : le bib de liaison connaissances de la disciplines, le bib RDM connaissances méthodologiques.
+Adapter DMP à ses besoins. Utiliser les demandes de visualisation/éditorialisation des chercheurs comme point d'entrée pour travailler avec eux sur la bonnes gestion de leurs données.

Wiki SBU

Outils pour utilisateurs

Outils du site

Différences

Outils de la page