Meta Data

Forschungsdatenmanagement

Leitfaden Forschungsdaten


Die Senckenberg Gesellschaft für Naturforschung (SGN) hat sich zum Ziel gesetzt, Wissen, Daten und zugehöriges Material zu schaffen und zu bewahren, neue Informationen zu generieren und diese für Wissenschaft und Gesellschaft auffindbar, zugänglich, interoperabel und (wieder-)nutzbar zu machen, gemäß den FAIR Data Principles. Forschungsdaten und wissenschaftliche Sammlungen sind die Grundlage für unsere Forschung und das Ergebnis unserer wissenschaftlichen Arbeit (siehe hier).

Sammlungsdigitalisierung, DCOLL, DISSCO

Die ehemalige DCOLL Gruppe hat entschieden, das Thema gemeinsam im Rahmen der DNFS weiter zu verfolgen. Entsprechend sind die neuen Sprecher der DNFS Prof. Bernhard Misof und Prof. Thomas Borsch in den Bundesministerien vorstellig geworden. Zum aktuellen Stand wird mündlich berichtet.

DISSCO soll die übergreifende Struktur zur Vernetzung digitaler Sammlungsdaten werden und das laufende DISSCO-Prepare Projekt schafft unter leitender Beteiligung von SGN die Grundlagen. Wie genau der nationale Knoten/Beitrag der deutschen Seite in der eigentlichen Hauptphase von DISSCO gestaltet werden wird, ist u. a. auch Gegenstand des Austausches mit den zuständigen Ministerien. Darüber hinaus ist Senckenberg wesentlich in der wissenschaftlichen Arbeitsgruppe beteiligt, die die Gestaltung des deutschen nationalen Knotens seitens der Sammlungsinstitutionen vorbereitet.

> > Für weitere Informationen gehen Sie bitte zur englischen Seite unserer „Data Best Practices“

Im Rahmen des Sondertatbestandes Anthropocene Biodiversity Loss (STB ABL) hat Senckenberg in gewissem Umfang Mittel für Digitalisierung eingestellt und würde auch eine dauerhafte Digitalisierungseinheit aufbauen. Der Größenordnung nach würde dies aber nicht reichen, um den Digitalisierungsstau insgesamt auflösen zu können. Daher bleiben DCOLL bzw. etwaige Nachfolgeprojekte wichtig. Dies gilt, obwohl bei Senckenberg und insbesondere auch weltweit bereits große Konvolute an Digitalisaten verfügbar sind. Im Rahmen des STB ABL würde Senckenberg massiv in die Biodiversitäts-Informatik, Daten-Kuratierung, Daten-Auswertung & -Modellierung, KI etc. investieren. Der Collectomics-Ansatz ist in dieser Perspektive zentral für die Entwicklung von Methoden und Konzepten zur wissenschaftlichen Nutzung auch der Daten, die im Rahmen des DCOLL-Prozesses erhoben würden.

 

Nationale Forschungsinfrastrukturen

Senckenberg ist an der laufenden NFDI4Biodiversity beteiligt, und ist wesentlicher Partner in den Anträgen zu NFDI4Agri & NFDI4Earth. Die Entscheidung über die laufenden NFDI-Anträge ist von der DFG etwas vertagt worden, aber die Gutachtereinschätzungen wurden inoffiziell vorab kommuniziert. Hierzu wird mündlich berichtet.

 

Forschungsdatenmanagement

SGN hat eine interne Leitlinie für das Forschungsdatenmanagement erarbeitet. Sie setzt den Rahmen, die Details zu der genauen Ausführung wurden in enger Zusammenarbeit mit den Nutzer*innen (insbesondere auch Nachwuchswissenschaftler*innen) erarbeitet und getestet. Zentrales Element ist hier das neue Metadatenportal von Senckenberg (CKAN-Standard), das bereits genutzt wird (u. a. zur Nagoya-Dokumentation).

Grundlage dieser Leitlinie sind die folgenden Quellen:

● Die „OECD Principles and Guidelines for Access to Research Data from Public Funding“ (hier),

● Die „DFG-Empfehlungen zur Sicherung guter wissenschaftlicher Praxis“ (hier),

● die „Regeln zur Sicherung guter wissenschaftlicher Praxis an den Senckenberg Forschungsinstituten“, die „DFG-Praxisregeln für die Digitalisierung“ und die „Richtlinie zum Umgang mit Forschungsdaten in der Leibniz-Gemeinschaft“ (hier)

● Der „Vorläufige Datenmanagementplan für die DiSSCo-Infrastruktur“ (hier)

Als Unterzeichner der Bouchout-Deklaration hat sich Senckenberg verpflichtet, Forschungsdaten und digitale Ressourcen weitestgehend frei und offen im Einklang mit den FAIR-Datenprinzipien verfügbar zu machen. Der folgende Text definiert Senckenbergs Rahmen für Datenmanagementpläne von Forschungsrohdaten und Metadaten. 

Forschungsrohdaten umfassen alle Daten und Datentypen, die während des Forschungsprozesses erzeugt oder gesammelt werden. Da diese Daten je nach Forschungsdisziplin und -methodik in unterschiedlichen Formaten und Medientypen vorliegen, z.B. in digitalen Datenbanken, digitalen Bildern und digitalen Bibliotheksarchiven, ist für ihre effektive Nachnutzung eine ausreichende Dokumentation der Umstände und Methoden ihrer Entstehung notwendig. Zu den Methoden gehört zunehmend auch Software für die Erzeugung, Verarbeitung oder Analyse von Daten. Daten können auffindbar und zugänglich, aber dennoch nicht wiederverwendbar und interoperabel sein, wenn die Datenformate nicht offenen Datenstandards folgen.

 

Datenformate sollten offen und nicht proprietär sein, so dass sie zwar maschinenlesbar sein sollen aber ohne dass spezifische, nicht offene Software für den Zugriff erforderlich wäre (d. h. Textdateien im Gegensatz zu Binärdateien). Textdateien sollten im UTF-8 kodiert sein. Im Folgenden finden Sie eine Liste von Richtlinien, die Senckenberg empfiehlt:

1.            National Archives für eine sehr detaillierte Darstellung der Richtlinien des Nationalarchivs

2.            ETH-Bibliothek für eine prägnante Zusammenfassung von Dateiformaten

3.            Best File Formats for Archiving für einen umfassenden Artikel.

Empfohlene Lizenzen sind Creative Commons Copyright Waiver (CC0) und Creative Commons By Attribution (CC-BY) oder gleichwertige Lizenzen.

Unter Metadaten werden hier beschreibende Daten für jede Art von Forschungsobjekt verstanden, wie z. B. reale Objekte wissenschaftlicher Sammlungen, Forschungsrohdaten, sowie beschreibende Daten für Forschungsprojekte. Metadaten sollten in englischer Sprache erstellt werden und einem entwickelten Metadatenschema folgen. Dieses Schema sollte enthalten

1. bibliografische Metadaten (ähnlich wie DataCite) einschließlich

a.            ORCID des Experten

b.            ROR der Institution des Experten

2.            DOI der Primärdaten

3.            DOI oder gleichwertiger persistenter Bezeichner der externen Daten

Metadaten sollten so beschreibend wie möglich und in Übereinstimmung mit den FAIR-Prinzipien sein:

1.            Titel

2.            DOI

3.            Beschreibung/Abstract

4.            Schlüsselwörter

5.            Datenautoren/Datenquelle

6.            Metadaten-Autor

7.            Erstellungsdatum, Version

8.            Geografische Abdeckung

9.            Zeitliche Abdeckung

10.          Taxonomische Abdeckung

11.          Qualitätssicherungs-/Qualitätskontrollverfahren (QA/QC)

12.          Datendateien/Format

13.          Autor der Metadaten

14.          Kontaktperson

Die SGN implementiert und unterhält eine Basisinfrastruktur für Forschungs- und Sammlungsdaten und stellt damit die adäquate langfristige Aufbewahrung und technische Verfügbarkeit (Auffindbarkeit und Interoperabilität) von Metadaten und digitalen Forschungsrohdaten sicher.

Die Speicherung und Archivierung der Daten selbst erfolgt in der Informationsinfrastruktur des SGN oder in externen, aber international anerkannten Fachrepositorien (siehe re3data.org). Externe Repositorien, die typisch für die von SGN generierten Datentypen sind, werden im Folgenden aufgeführt:

 

Interne Datenbanken

1.            Sammlungsdatenbank

SeSam mit AQUiLA

2.            Botanik

Diverse Online-Informationsportale, z.T. mit eigenen Datenspeicherfunktionen:

Lausitzherbar, Bestikri

Chromosomenzahlen

Flora von Frankfurt am Main

Afrikanische Pflanzen, Westafrikanische Pflanzen, Ostafrikanische Pflanzen, Zentralafrikanische Pflanzen

Westafrikanische Vegetationsdatenbank

Westafrikanisches Daten- & Metadaten-Repositorium

3.            Boden-Zoologie

Edaphobase

Virmisco (Datenbank zur Digitalisierung von Bodentieren (Mikroskopbilder))

4.            Zoologie

MARSAMM

Wildkatzen-Datenbank

5.            Entomologie

ECatSym: Elektronischer Weltkatalog der Symphyta

6.            Daten-Domänen

Metacat Senckenberg

 

Externe Repositorien

1.            Frei zugänglich

GBIF (Globale Biodiversitäts-Informationseinrichtung)

OBIS (Ozean-Biodiversitäts-Informationssystem)

2.            Boden

BonaRes (Soil as a sustainable resource for the bioeconomy)

3.            Molekulare Ökologie

ENA (Europäisches Nukleotid-Archiv)

NCBI (Nationales Zentrum für Biotechnologie-Informationen)

Genbank 

4.            Vegetation

DRYAD: Daten von: Global vegetation patterns of the past 140,000 years

Github-Code-Repository

Globaler Index von Vegetationsplot-Datenbanken (GIVD)

sPlot – Die globale Vegetationsdatenbank

TRY – Datenbank mit Pflanzenmerkmalen

5.            Allgemein

Zenodo

Pangaea

6.  Registry für DOIs

DataCite

 

Projektleiter und andere selbstständig arbeitende Forscher sind in der Regel für das Forschungsdatenmanagement in ihren Forschungsprojekten verantwortlich. Sie sind insbesondere verpflichtet, die Einhaltung der guten wissenschaftlichen Praxis und der professionellen Standards sicherzustellen.

Forschungsprojekte, bei denen Forschungsrohdaten anfallen, benötigen einen Datenmanagementplan (DMP), in dem u.a. der Umfang der zu sichernden Daten sowie die Zugriffsrechte und -vorbehalte der Forschungsdaten festgelegt werden.

Die SGN berät zum Forschungsdatenmanagement in Forschungsprojekten von der Planung über die Durchführung bis hin zum Projektende. Auch die Gesellschaft für Biologische Daten (GFBio) steht beratend zur Verfügung.

Für den Zugang zu den Sammlungsdatenbanken der SGN ist ein Sammlungsportal eingerichtet worden. Für weitere Daten werden die DMPs zentral gesammelt. Das bedeutet, dass zu Beginn eines Projektes festgelegt wird, welche Daten gesammelt werden und wie diese langfristig archiviert werden.

Für die Metadaten gilt das grundsätzliche Ziel, sie für die Öffentlichkeit vollständig sichtbar zu machen. Ausnahmen von dieser Regel sind möglich, z.B. aus datenschutz- oder urheberrechtlichen Gründen, zum Schutz von Arten und personenbezogenen Daten und explizit zur Wahrung der wissenschaftlichen Interessen der Personen, die die Daten ursprünglich erzeugt haben.

Forschungsrohdaten werden langfristig gesichert und in der Regel über entsprechende Datenbankeinträge mit den zugehörigen Metadaten verknüpft. Um die eindeutige Identifizierung der Forschungsrohdaten weltweit zu gewährleisten, wird angestrebt, die Daten möglichst mit einem eindeutigen „Persistent Identifier“ zu versehen. Die Forschungsrohdaten sollen nach Abschluss ihrer Auswertung durch das sie erzeugende Projekt auch für die wissenschaftliche Gemeinschaft sichtbar gemacht werden. Dies soll so früh wie möglich, spätestens aber fünf Jahre nach Abschluss eines Projektes geschehen. Der Zugang zu den Originaldaten bedarf in der Regel der Zustimmung der Personen, in deren Projekten sie entstanden sind. Die Autoren können ein Embargo für die Nutzung der Daten verhängen, wenn sie noch nicht alle Analysen abgeschlossen haben und die Endergebnisse des Projekts noch nicht veröffentlicht sind.

Best Practices für das Forschungsdatenmanagement

Ansprechpartner

Dr. Hanieh Saeedi
Koordinatorin Biodiversitätsinformatik

Data Manager Ocean Biogeographic Information System (OBIS), Deep Sea Node, UNESCO

Chair Data Quality Control Task Team, OBIS

Research interests

I am interested in understanding the driving factors (ecological and evolutionary process) which shape the biodiversity patterns and biogeography in marine species (shallow and deep sea) using big data. In addition, I am interested in predicting how these biodiversity patterns and species distribution ranges will shift under future climate change. I am also the OBIS (Ocean Biogeographic Information System) deep-sea node data manager in UNESCO, specialised in managing big datasets, biodiversity data standards, and quality control tasks. To carry out my research, I use different skillsets and apply different methods and techniques such as taxonomy (morphology and molecular), phylogeny, biogeography, big-data management, biodiversity informatics, macroecology, and species distribution modeling and ecological modeling.

At the moment, I am leading projects in digitisation of museum collections, biogeography, biodiversity informatics using big-data at the regional (e.g. NW Pacific) and global scales. I also work for science-policy intergovernmental bodies such as IPBES (Intergovernmental Science-Policy Platform on Biodiversity and Ecosystem Services) to provide fundamental information for biodiversity assessment reports in a response to policy makers to better understand the global status of biodiversity in the World Oceans and consequently to establish more efficient strategic management plans to maintain the Ocean Biodiversity.

Current research projects

  • Biogeography of the NW Pacific deep-sea fauna and their possible future invasions into the Arctic Ocean (Beneficial Project)
  • Estimating the global future shift patterns of shallow-water and deep-sea Crustacea
  • Biodiversity and biogeography of molluscs along the NW Pacific and the Arctic Ocean
  • Biodiversity and future distributions of corals along the NW Pacific and the Arctic Ocean
  • Biogeography of marine species richness and impact of climate change
  • IPBES thematic assessment of invasive alien species and their control

Student opportunities

Various research projects for postdocs, PhDs, MSc and BSc students as well as for short internships are available this year and all year round. These opportunities are mostly in the field of biogeography, ecology, biodiversity informatics, and ecological modeling. Further Postdoc and PhD projects can also be discussed and jointly developed. Please contact me for more details.

Teaching

I have more than 15 years of international experience in teaching and supervising students from high school to MSc. Programs.

Short CV

Selected publications

Saeedi, H., Simoes, M., Brandt, A. (2020). Biodiversity and distribution patterns of deep-sea fauna along the temperate NW Pacific. Progress in Oceanography, 183: 102296. https://doi.org/10.1016/j.pocean.2020.102296.

Saeedi, H., Simoes, M., Brandt, A. (2019). Endemicity and community composition of marine species along the NW Pacific and the adjacent Arctic Ocean. Progress in Oceanography. Progress in Oceanography, 178: 102199. https://doi.org/10.1016/j.pocean.2019.102199.

Saeedi, H., Costello, M. J., Warren, D., Brandt, A. (2019). Latitudinal and bathymetrical species richness patterns in the NW Pacific and adjacent Arctic Ocean. Scientific Reports, 9:9303. https://doi.org/10.1038/s41598-019-45813-9.

Saeedi, H., Reimer, D. J., Brandt, J. M., Dumais, P. O., Jażdżewska, M. A., Jeffery, W. N., Thielen, M. P. (2019). Global marine biodiversity and prediction in the context of achieving the Aichi Targets: ways forward and addressing data gaps. Peerj, 7: e7221. https://doi.org/10.7717/peerj.7221.

Saeedi, H., Bernardino A. F., Shimabukuro M., Falchetto G., & Sumida P. Y. G (2019). Macrofaunal community structure and biodiversity patterns based on a wood-fall experiment in the deep South-west Atlantic. Deep Sea Research Part I: Oceanographic Research Papers, 145:73-82.

Saeedi, H. & Costello M. J. (2019). A world dataset on the geographic distributions of Solenidae razor clams (Mollusca: Bivalvia). Biodiversity Data Journal, 7:e31375. https://doi.org/10.3897/BDJ.7.e31375.

Saeedi, H., Kamrani, E., Shayesteh, F., Nordhaus, I., Diele, K., Raeisi, H. (2018). Sediment Temperature Impact on Population Structure and Dynamics of the Crab Austruca iranica Pretzmann, 1971 (Crustacea: Ocypodidae) in Subtropical Mangroves of the Persian Gulf. Wetlands, 38(3): 539–549.

Saeedi, H., Costello, M. J. and Dennis, T. (2017). Modelling present and future global distributions of razor clams (Bivalvia: Solenidae). Helgoland Marine Research, 70: 23.

Chaudhary, C., Saeedi, H., & Costello, M. J. (2017). Marine species richness is bimodal with latitude. Trends in Ecology and Evolution. 32(4): P234-237.

Saeedi, H., Costello, M. J. and Dennis, T. (2016). Bimodal latitudinal species richness and high endemicity in razor clams (Mollusca: Bivalvia). Journal of Biogeography. 44(3): 592–604.

Chaudhary, C., Saeedi, H., & Costello, M. J. (2016). Bimodality of latitudinal gradients in marine species richness. Trends in Ecology and Evolution, 3(9): 670-676.