Project

General

Profile

Meilenstein 5.1: Etablierung eines ESGF CMIP6 Datenknotens mit Anbindung an den DKRZ CMIP Datenpool

Der ESGF CMIP6 Datenknoten

Es wurde einem dedizierten Server-Knoten die ESGF Datenknoten-software installiert. Auf einem getrennten Test-Knoten wurden hierbei die vorausgehenden Installations und Integrations-Tests durchgeführt. Der Knoten wurde unter dem Namen "esgf3.dkrz.de" als Erweiterung der bestehenden Knoten "esgf1.dkrz.de" und "esgf2.dkrz.de" in die DKRZ ESGF Infrastruktur integriert. Der thredds Katalog der über esgf3.dkrz.de bereitgestellten CMIP6 Daten ist unter https://esgf3.dkrz.de zugreifbar.

Der esgf3 Knoten ist spezifisch zur Publikation von CMIP6 Daten am DKRZ vorgesehen, die auf dem parallelen file-system des DKRZ innerhalb des "DKRZ CMIP Datenpools" vorgehalten werden. Analog macht esgf1 ältere CMIP5 und CORDEX Daten des Datenpools über ESGF zugreifbar. Der esgf2 Knoten hingegen bindet CMIP Daten, die im WDCC lagzeitarchiviert sind in ESGF ein und macht somit Daten auf Band in ESGF sichtbar und zugreifbar. Er wird zum Ende des CMIP6-DICAD Projektes hin auch die langzeiarchiverten CMIP6 Daten in ESGF einbinden und garantiert so die Langzeitverfügbarkeit der über das DKRZ gesammelten CMIP6 Datenbestände.

Folgende technische Teilkomponenten wurden als Teil des CMIP6 Datenknotens in Betrieb genommen:
- Ein Thredds Katalog mit http und opendap Protokollunterstützung zum Daten-Download
- Ein gridftp server zum Datendownload
- Internes Logging und Monitoring sowie Anbindung an das DKRZ Dienste-Monitoring (inklusive automatisierter (re-)start scripte)
- Zugriff auf den CMIP Datenpool über eine NFS Anbindung des Lustre File systems des Mistral HPC Rechners.
- Anbindung an die DKRZ PID Infrastruktur zur Bereitstellung von persistenten Identifikatoren für alle CMIP6 Datenbestände.

Integration in die ESGF Infrastruktur

Die Datenbestände des CMIP6 Datenknoten werden über das DKRZ ESGF Datenportal (https://esgf-data.dkrz.de) in die globale ESGF Datenföderation eingebunden. Sie sind dort unter dem "CMIP6" Projekt suchbar sein, sobald die ersten CMIP6 Daten publiziert wurden. Es wurden Portal-Erweiterungen implementeriert, die es erlauben Datenkollektionen persistente Identifikatoren zuzuordnen. Dies ermöglicht es Nutzern spezifische Datengrupp, die für ihre Datenauswertetätigkeiten relevant sind eindeutig zu identifizieren und so eindeutig referenzierbar zu machen. Das Portal stellt zudem die Nutzer-accounts bereit, die zum Datenzugriff benötigt werden.

Anbindung an den DKRZ CMIP Datenpool

Der DKRZ CMIP Datenpool basiert aktuell auf einem organisatorisch klar abgetrennten Teil des DKRZ Mistral Lustre Speichersystems. Die deutschen CMIP6 Beiträge werden hier auf Platte gespeichert und sind nach der ESGF Publikateion über den CMIP6 Datenknoten an das ESGF DKRZ Portal weltweit über ESGF zugreifbar. Die technische Anbindung geschieht über eine lesende NFS Anbindung des Lustre file systems an den esgf3 CMIP6 Datenknoten.
Der CMIP Datenpool soll zudem häufig benötigte CMIP6 Daten europäischer und internationaler CMIP6 Modellierungsgruppen bereitstellen. Hierzu wurden Komponenten am DKRZ integriert, die eine automatisierte Replikation von entfernten CMIP6 Datenbeständen ermöglicht. Diese basiert auf dem am IPSL entwickelten "synda" Replikations-Tool und unterstützt den Tranfer und die zugehörigen Verwaltung (synchronisation, updates) von nicht-lokalten CMIP6 Datenbeständen mit einem lokalen Datenpool. Um eine performante Datenreplikation der hochvolumigen CMIP6 Datenbestände über limitierte Netz-bandbreiten zu gewährleisten ist das DKRZ in die internationale ICNWG Arbeitsgruppe eingebunden, die versucht die internationale Netz-Infrastruktur bestmöglich für ESGF zu nutzen und zu optimieren.
Die organisatorische Verwaltung de Daten innerhalb des CMIP DKRZ Datenpools wird als Teil des Meilensteins 5.2 beschrieben.