Project

General

Profile

Meilenstein 5.2 Datenbereitstellung im nationalen CMIP Datenpool

Hintergrund und Übersicht

Die Erfahrungen mit der Bereitstellung und Auswertung von CMIP5 Daten am DKRZ zeigten einen starken Bedarf nach einem gepflegten, zentral schnell zugreifbaren Datenpool, der für oft benötigte Daten das oft zeitspielige und fehleranfällige Herunterladen von Daten auf lokale Auswerte-Ressourcen (Arbeitsplatzrechner, Institutsressourcen) vermeidet. Deshalb wird zur Unterstützung der deutschen Forschungsgemeinschaft im Rahmen von CMIP6-DICAD ein zentralisierter CMIP Datenpool etabliert. Dieser steht allgemein zu koordinierten Sammlung und Bereitstellung wichtiger CMIP Datenbestände bereit, die insbesondere bei CMIP Multi-model Auswerteaktivitäten und auch Klimafolgenforschung häufig benötigt werden. Die Sammlung (Datenübernahme bzw. Datenreplikation) wird hierbei durch DKRZ Daten-Manager übernommen und unterstützt. Die Festlegung der Entscheidungsrichtlinien, welche Datenbestände wie lange als Teil des CMIP Datenpools vorgehalten werden sollen, obliegt einem Entscheidungsgremium das im Teil "organisatorische Aspekte" genauer charakterisiert wird.

Die gesammelten Datenbestände sind direkt an die DKRZ HPC Ressourcen angebunden und damit hoch-effizient zugreifbar. Der CMIP Datenpool dient zudem der Vorhaltung und Bereitstellung deutscher CMIP6 Beiträge über den DKRZ CMIP6 Datenknoten. Zudem sollen für Auswerte-tätigkeiten (insbesondere im Rahmen der vergleichenden Evaluation von CMIP6 Ergebnissen) oft benötigte Beobachtungsdaten zentral vorgehalten werden wie auch wiederverwendbare Auswerte-Ergenisse.
Die aktuelle Planung geht von einem 5 Petabyte grossem Datenbereich aus, der als Teil des DKRZ Lustre-Systems betrieben wird und in die DKRZ Infrastruktur eingebunden ist. Diese 5 Petabyte sind grob in folgende Teilbereiche unterteilt:
- deutsche CMIP6 Beiträge
- internationale, replizierte CMIP6 Daten
- CMIP6 bezogenene Beobachtungsdaten und abgeleitete CMIP6 Auswerteergebnisse
- Datenverwaltung (Datenübernahme, Qualitätsprüfung, Zwischenspeicherung vor der Archivierung etc.)

Datenbereitstellung

Nationale CMIP6 Datenbestände

Deutsche Modellierungsgruppen können den DKRZ CMIP6 Datenpool nutzen um Ihre Daten in die weltweite ESGF Datenföderation einzubinden. Datenübergabe und Daten-Ingest wird hierbei über die an ein ticketing System angebundene email- Kontaktadresse koordiniert. Es stehen zudem Web-Formulare zur Verfügung um den Datenübergabe-Prozess zu vereinfachen. Diese sind über https://data-forms.dkrz.de:8080 verfügbar und befinden sich aktuell im Test-Betrieb. Der Zugang zum Formular-System wird nach Kontaktaufnahme mit bereitgestellt.

Internationale CMIP6 Datenbestände

Deutsche Forscher-(Gruppen) können ihren Bedarf an CMIP6 Daten internationaler Partner über die email- Kontaktadresse am DKRZ anmelden. Ist der Bedarf im Rahmen der aktuellen Entscheidungsrichtlinien gerechtfertigt erfolgt dann die durch DKRZ Datenmanager vewaltete Datenreplikation und Datenbereitstellung. Auch hierbei unterstützt das Formular System durch die Möglichkeit den Datenbedarf klar und eindeutig zu formulieren. Ist unklar ob und wie der Bedarf durch die aktuellen Entscheidungsrichtlinien abgedeckt ist wird der Wunsch dem Gutachter-Gremium zur Entscheidung vorgelegt.

Nicht-CMIP6 Datenbestände

Das Vorgehen bezüglich der Einbringung von zusätzlichen Datenbeständen (z.B. Beobachtungsdaten), die im Rahmen von CMIP6 Analyseaktivitäten benötigt werden wird prinzipiell vorgegangen wie im vorherigen Punkt (Internationale CMIP6 Datenbestände). Auch hier unstertützt das Formular-System mit spezifischen Vorlagen zur Charakterisierung der in den Pool zu übernehmenden Datenbestände.

Organisatorische Aspekte

Das DKRZ CMIP Pool Gremium

Da noch keine CMIP6 Daten vorliegen und damit auch noch kein aktueller Bedarf diese im DKRZ CMIP Datenpool bereitzustellen ist die konkrete Zusammensetzung des Planungs-Gremiums noch in Diskussion. Die Zusammenstellung wird Anfang 2018 finalisiert und nach aktuellem Status ist erst ab Mitte 2018 eine Begutachtung und Priorisierung der Datenanforderung durch das Gremium erforderlich.

Abstimmung mit IPCC WG1

.. Zusammenfassung des Treffens am DKRZ im September

Abstimmung im Rahmen von IS-ENES und ESGF bzgl. der Replikation

Um eine Planungsgrundlage der zukünftigen CMIP6 Anforderungen bezügleich der Datenreplikation zu gewinnen wurde basierend auf Zugriffstatistiken eine Zusammenstellung der am häufigsten zugegriffenen Variablen erstellt (siehe Anhang CMIP5_Data_Usage-MS-200217.pdf unten). In diese Auswertung fand zudem eine Auswertung der am häufigsten in wissenschaftlichen Publikationen referenzierten Variablen Eingang.
Zudem wurden die Variablen- Anforderungen von Initiativen zur Modell-Evaluierung gesammens (siehe Anhang ESMValTool_variables_170321_Sent.xlsx unten). Um eine frühzeitige Modellevaluierung zu ermöglichen bilden diese Variablen eine bezüglich der Datenreplikation priorisierte Anfoderung.

Die so bislang gebildete Planungsgrundlage wurde im Rahmen der europäischen ENES data task force diskutiert und bildet die Grundlage der Planung von "CMIP6 Daten hot spots" in Europa. Zudem wurde die Erkenntnisse an das WCRP WIP Gremium kommuniziert und werden dort in Zukunft weiter diskutiert werden um die weltweite CMIP6 Replikation zu organisieren.
Da jedoch insgesamt zum aktuellen Zeitpunkt (September 2017) noch keine CMIP6 Daten in ESGF publiziert wurden und der Arbeitsscherpunkt aller Modellierungsgruppen auf der End-Konfiguration des Modellierungsworkflows hin zu den ESGF publizierbaren Daten liegt, kann die detaillierte Replikationsplanung erst Anfang 2018 konkretisiert und verfeinert werden.