AP4 - Data Quality Assurance¶
Bereistellung eines QA Werkzeuges zur Prüfung der Datenkonformität
Ansprechpartner Heinz Dieter Hollweg (hollweg@dkrz.de)
Hintergrund¶
Das Dokument "CMIP6 ESGF Publication Requirements" spezifiziert die Anforderungen, die Datensätze erfüllen müssen, um auf ESGF Datenknoten publiziert zu werden. Die Datenqualitätsprüfung erfolgt mit mit Quality Assurance Tool am DKRZ (QA-DKRZ) mit dem Ziel, das . Hierzu werden die Pfade und Filenamen in den Datensätzen hinsichtlich der "Data Reference Syntax (DRS)" überprüft. Das "Controlled Vocabulary (CV)" wird mit dem am PCMDI entwickelten CMOR-Checker "PrePARE" (http://cmor.llnl.gov) getestet, welches vom QA-DKRZ Tool eingebunden wird. Die Ergebnisausgabe von PrePARE wird in das QA-DKRZ eigene "Annotationsmodell" überführt, was letztendlich eine Kurzfassung der QA-Ergenisse im JSON Format liefert.
Milestones¶
1. Release der ersten CMIP6+ angepassten Version des Werkzeugs zur Qualitätssicherung - M3¶
CMIP6 Datensätze müssen folgende Anforderungen erfüllen:
- die CMIP6 eigene „Data Reference Syntax“ (DRS) von Pfad und Dateinamen ist korrekt,
- die Metadaten unterliegen der CF Konvention CF-1.7 CMIP-6.0 und zusätzlich wenn nötig UGRID-1.0,
- die Metadaten müssen dem am PCMDI entwickelten CMIP-Standard-Validator „PrePARE“ genügen.
Das Werkzeug QA-DKRZ wurde an CMIP6 angepasst, u.a. durch Einbinden von PrePARE, und überprüft die Einhaltung der Anfordergungen.
Die Programmpaket kann für gängige Rechnerplattformen durch conda install -n qa-dkrz -c conda-forge -c h-dh qa-dkrz
bezogen werden.
Alternativ kann die Installation vom GitHub durch git clone https://github.com/IS-ENES-Data/QA-DKRZ.git
vorgenommen werden.
Der Meilenstein wurde erreicht.
2. Dokumentation zur Installation und Nutzung des Werkzeugs zur Prüfung von CMIP6+-Daten (erste Version, wird basierend auf Erfahrungen der Endnutzer verbessert) - M3¶
Installation, Konfiguration und Nutzung, sowie einem "Best Practices" Abschnitt, ist auf dem Dokumenten-Portal ReadTHeDocs (https://readthedocs.org/projects/qa-dkrz) erläutert.
Dieser Meilenstein wurde erreicht. Lediglich der Aspekt der Verbesserungen aufgrund von Endnutzer steht noch aus.
3. Bereitstellung eines spot check service im Internet - M6¶
Ein Prototyp des web-basierten QA-DKRZ-Dienstes für einzelne Projektdateien („Spot Check“) wurde eingerichtet.
Dieser Meilenstein wurde erreicht.
4. Bericht über Anwendung des Qualitätsprüfungswerkzeugs auf erste repräsentative Modellergebnis-Kollektionen und Zusammenstellung der häufigsten entdeckten Fehlerquellen - M15¶