====== The Challenge of Big Data in Science (5th International LSDMA Symposium) ====== [[https://indico.desy.de/conferenceTimeTable.py?confId=14574#20161005|Programme du symposium]] {{:aoc:timetable.pdf|}} ===== 1. Welcome, Introduction ===== ==== Présentation de la Division 2 du KIT ==== __Intervenant__ : Michael Decker {{:aoc:20161005_lsdma_grusswort.pptx|Présentation Powerpoint}} LSDMA = Large-scale data management and analysis Division 2 : Informatique, économie et SHS. Définition du 4e pilier (= 4e paradigme) : exploration des données (1e expérimentation, 2e théorie, 3e simulation). Que faire avec les données additionnelles ? Hypothèses sont redirigées. Beaucoup de données générées dans de nombreux domaines, par ex pour accompagner la transition énergétique en cours en Allemagne, mais aussi en médecine et en économie. Des outils sont développés dans ces domaines et les SHS les attendent. ==== Ouverture du symposium et présentation du LSDMA ==== __Intervenant__ : Achim Streit / {{:aoc:lsdma-symposium-opening.pptx|Présentation Powerpoint}} Description de la structure du LSDMA __Data Life Cycle Labs__ Développement de services et d'infrastructures spécifique à chaque communauté scientifique. Chaque labo a un domaine : énergie, santé, sciences de la vie, etc. __Data Services Integration Team__ Développement de services et d'infrastructures génériques multi-disciplinaires. Développe des composants qui intéressent plusieurs communautés scientifiques. __Association Helmholtz et la Helmholtz Data Federation__ Association de plusieurs centres de recherches allemands. Distribue des financements provenant du ministère allemand de la recherche et du programme H2020. Elle développe une infrastructure fédérée des données de la recherche coordonnée par le KIT (**HDF** / **Helmholtz Data Federation**) --> initiative de promotion de l'excellence de la recherche allemande par la création de services et d'infrastructures destinés au RDM et à la fédération des centres de données existants. Liens avec initiatives européennes : European Science Cloud. Le futur HDF est la brique nationale de la construction du cloud européen, la contribution allemande au projet. [[http://www.diplomatie.gouv.fr/fr/politique-etrangere-de-la-france/diplomatie-scientifique/veille-scientifique-et-technologique/allemagne/article/la-communaute-helmholtz-lance-une-initiative-en-faveur-du-partage-des-donnees?xtor=RSS-4|Update 25/10/2016]] 3 éléments : software (RDM), support utilisateur et hardware pour stockage et analyse ===== 2. Moving data from research enabler to trusted research output ===== __Intervenant__ : Andrew Treloar / {{:aoc:treylor_lsdma_keynote_october_5_2016.pptx|Présentation Powerpoint}} NCRIS = National collaborative research infrastructure strategy Finance des projets d'infrastructures de recherche et de E-Research, notamment le service des données **Australian National Data Service** (ANDS). ==== ANDS ==== 50 personnes, plus de 300 projets réalisés, financé depuis 2009 jusqu'en 2017 (mais extension probable de 10 ans) * ANDS ne stocke pas de données, mais laisse ceci au soin des universités (ça pourrait changer à l'avenir) * ANDS décrit les données au niveau de la collection, et non la donnée au niveau individuel * ANDS a une approche coordonnée nationalement * ANDS est multidisciplinaire Collections de données : **+** Agrégation des données qui font sens pour un but particulier **-** Les données sont plus difficiles à trouver au niveau individuel La plus grande partie des données produites par les chercheurs sont invisibles. ANDS transforme ces données non structurées en collections structurées découvrables et donc réutilisables. ==== Trusted partnerships ==== ANDS travaille avec des institutions productrices de données, pas directement avec les chercheurs. ==== Les services proposés par ANDS ==== ANDS propose un ensemble de services destinés à : * **identifier** les données (DOI) * **décrire** les données (création du [[https://vocabs.ands.org.au/|Research vocabularies Australia]]) * **publier** les données (plus de 100 000 collections en ligne) * **trouver** les données (création du portail de recherche [[https://researchdata.ands.org.au/|Research Data Australia]]) * **connecter** les données avec ORCID 100 000 collections en ligne dont seulement 20% en open access. Les 80% restant sont en accès plus ou moins restreint (connexion au site ou envoi du lien par mail). Le portail **Research Data Australia** est un moteur de recherche permettant de naviguer parmi ces collections. Son code est en open source. Le service **Research Vocabularies Australia** est un site multidisciplinaire regroupant tous les vocabulaires contrôlés utilisés par les chercheurs australiens. Ceux-ci peuvent rechercher, publier, voire créer leur vocabulaire en ligne sur le site. ==== Enhanced capability ==== C'est le volet dédié, au départ, aux data librarians. L'espace formation du ANDS se composait de webinars, des "23 things" et de workshops. Maintenant, l'espace se tourne vers un public de techniciens de la donnée (Data Technologists) avec des Monthly Talks, des "Hub and Spoke Models", etc. ==== Engagement international ==== ANDS est un des membres fondateurs de la Research Data Alliance (RDA). L'Australie est un grand pays avec une petite population et elle ne peut pas tout faire toute seule. Elle s'implique donc fortement dans des opérations internationales. ===== 3. Funding Research Data Management and related Infrastructures ===== __Intervenant__ : Bas Cordewener / {{:aoc:ke-se_funding_rdm_and_rdi_karlsruhe_05102016_v2.pptx|Présentation Powerpoint}} ==== Knowledge Exchange ==== Rapport : {{:aoc:funding_rdm_related_infratsructures_may2016_v7.pdf|Funding research data management and related infrastructures - May 2016}} 5 partenaires (bientôt 6) forment le Knowledge Exchange (KE) : * DFG * SURF * JISC * DEFF * CSC * CNRS (demande d'adhésion en cours) Le KE est une collaboration entre bientôt 6 organisations nationales pour soutenir le développement d'infrastructures TIC pour l'éducation supérieure et la recherche. le KE a été fondé en 2005 pour faciliter l'échange structurel de connaissances, d'expériences, de stratégies entre les partenaires. ==== Science Europe ==== Science Europe est une association de plusieurs organismes financeurs et d'organisations de recherche issues de 27 pays. Elle a été créée en 2011 pour faire la promotion de leurs intérêts communs et pour encourager la collaboration. ==== RDM et RDI ==== Pourquoi explorer le financement du Research Data Management (RDM) et des infrastructures de gestion de données (RDI) ? Un bon RDM demande de bonnes RDI pour assurer la préservation et la réutilisation des données. Les acteurs fondateurs ne font pas partie d'une structure coordonnée. Toutes les parties prenantes sont bien conscientes que la science et la recherche dépendent de plus en plus du RDI pour soutenir un RDM durable. Conséquences d'un financement non coordonné ? Les fournisseurs de RDI ont des perspectives différentes sur leurs rôles --> approche et visions différentes --> hétérogénéité Qui plus est, la plupart des financements des RDM sont indirects et émiettés (voir schémas dans la présentation) Q/A Les financement européens des infrastructures RDI sont basés sur les projets, or ce n'est pas aux chercheurs de financer les infrastructures. Idée de "Data Commons" évoquée lors du RDA à Denver (8e plénière) par Philip Bourne (NIH). Idée de "Cloud Coins" dédiés au financement des infrastructures par l'UE (EOSC). ===== 4. Getting Science out of eScience ===== __Intervenant__ : Wilco Hazeleger, directeur de Netherlands eScience Center / {{:aoc:nlesc_4kit.pptx|Présentation Powerpoint}} [[https://www.youtube.com/watch?v=x1SgmFa0r04|Vidéo de la NASA : A Year in the Life of Earth's CO2]] Exemple d'usage des Big Data. Il y a de nouvelles sources de données, non traditionnelles comme les réseaux sociaux, les données téléphoniques, etc. ==== eScience ==== [[https://www.esciencecenter.nl/|Netherlands eScience Center]] === eStep === [[http://estep.esciencecenter.nl/|The eScience Technology Platform]] === ePlan et Plan-E === [[https://plan-europe.eu/PLAN-E : Platform of National eScience Centers in Europe]] [[https://escience-platform.nl/|ePlan : Platform of eScience/Data Research Centers in The Netherlands]] === Exemples de projet eScience === == 4D GIS Archeology == La Via Appia à Rome a été inspectée et scannée en 3d sur 2 km par un archéologue néerlandais grâce à un véhicule de type Google Car. Ce système peut être utilisé par d'autres chercheurs. [[https://www.esciencecenter.nl/project/mapping-the-via-appia-in-3d|Mapping the Via Appia in 3D]] == 3D City == Scan en 3d d'une ville par des architectes. Les modèles 3d de villes sont intéressants pour faire des simulations de flux. 64 000 fichiers d'un poids total de 10 tb. Le chargement des fichiers dans PostGIS était chronophage (2 semaines), mais a été considérablement réduit. Le Spatial Data Management System est un ensemble de nouvelles méthodes pour accélérer l'accès et le traitement informatique des données. == Embodied Emotions == Université d'Amsterdam. Textes de pièces de théâtre datant de la Renaissance jusqu'aux Lumières numérisés, puis fouille de texte pour détecter automatiquement les émotions au fil du temps. Quantification des émotions au théâtre. == Wordvectors (word2vec) == Là aussi, fouille de contenu, évolution temporelle des concepts à partir du texte de 600 000 journaux numérisés (de 1955 à 1981). == Cheaper EEG for Epilepsy == [[https://www.esciencecenter.nl/project/diagnosis-of-active-epilepsy-in-resource-poor-setting|Prediction models based on EEG characteristics]] == Computer recognition == Nouvelle technique de reconnaissance d'images : data-driven morphological salient regions detection. [[http://software.esciencecenter.nl/software/salient-region-detectors|Salient Regions Detector]] == FAIR Dataport for Life Science == Principe : combiner des données protéomiques structurées et non structurées grâce à Open Virtuoso et aux standards du web sémantique du W3C pour obtenir des données FAIR et liées (Linked Data). [[http://software.esciencecenter.nl/software/fairdatapoint|FAIR Dataport for Life Science]] EScience est un pont entre les chercheurs de multiples disciplines, les infrastructures et les informaticiens. ===== 5. The role of the EDISON Framework in building Data Science professionals ===== __Intervenant__ : Steve Brewer / {{:aoc:lsdma-brewer-5-10-2016.pptx|Présentation Powerpoint}} ===== 6. The development of national road maps for digital research infrastructures ===== __Intervenant__ : Otto Rienhoff / {{:aoc:kit-2016-big-data-rienhoff-fin.pdf|Présentation Powerpoint}} ===== 7. User Community Driven Development in Trust and Identity ===== __Intervenant__ : Christos Kanellopoulos / {{:aoc:20161005-lsdma-aarc-user-community-driven-development-in-ti.pptx|Présentation Powerpoint}} ===== 8. Assessing Societal Aspects of Big Data - the Project ABIDA ===== __Intervenant__ : Reinhard Heil / {{:aoc:assessing_societal_aspects_of_big_data_-_the_project_abida.pptx|Présentation Powerpoint}} ===== 9. Beyond the "under-desk datacentre": lessons from research data management in the UK ===== __Intervenant__ : Matthew Dovey / {{:aoc:lsdma-2016_jisc.pptx|Présentation Powerpoint}}