GECCO – ein standardisierter Datensatz für die COVID-19-Forschung


von Prof. Dr. med. Sylvia Thun und Dr. Moritz Lehne

Wohl noch nie wurde innerhalb weniger Monate in einem Bereich so viel geforscht wie aktuell zu COVID-19. Seit im Dezember 2019 die ersten Infektionen mit dem neuen Coronavirus bekannt wurden, haben Forscherinnen und Forscher Zehntausende von Studien über COVID-19 und SARS-CoV-2 veröffentlicht. Diese Studien liefern täglich neue Erkenntnisse, die uns dabei helfen können, die Pandemie erfolgreich zu bekämpfen.

Doch die Flut der vielen Studien führt auch zu einer zunehmenden Segmentierung von Information: Daten werden unterschiedlich erhoben, Studienergebnisse sind oft nicht miteinander vergleichbar und ein studienübergreifender Datenaustausch zur gemeinsamen Auswertung ist schwierig. Um Forschungsaktivitäten zu harmonisieren und so das Beste aus der COVID-19-Forschung herauszuholen, sind einheitliche Datenformate notwendig.

Der German Corona Consensus (GECCO) Datensatz definiert einheitliche Datenstrukturen für COVID-19-Studien.

Um Studiendaten für die COVID-19-Forschung einheitlich zu erheben, wurde innerhalb des mit 150 Millionen Euro vom BMBF geförderten Nationalen Netzwerks der Universitätsmedizin zu COVID-19 der German Corona Consensus (GECCO) Datensatz entwickelt. Ziel bei der Entwicklung von GECCO war die Definition eines Datensatzes, der möglichst viele für die COVID-19-Forschung relevante Datenelemente enthält, gleichzeitig aber handhabbar und praktisch nutzbar bleibt.

Dafür sammelten Mitglieder eines Experten-Boards bestehend aus Fachleuten von Uniklinika und Fachgesellschaften Vorschläge für Datenelemente, die anschließend in einem kompakten Kerndatensatz konsolidiert wurden. Der Datensatz umfasst zum Beispiel Informationen zu demografischen Daten wie Alter, Geschlecht, Größe und Gewicht, zu Messungen wie Blutdruck oder Cholesterin, zu Risikofaktoren und Medikamenteneinnahme sowie zu Symptomen und eingeleiteten Therapieverfahren (siehe Abbildung).

geco

GECCO-Datensatz

GECCO verwendet internationale Terminologien und Standards

Um die einheitliche Bezeichnung medizinischer Konzepte und die Vergleichbarkeit von Daten über unterschiedliche Studien hinweg sicherzustellen, wurden internationale Terminologien, Nomenklaturen und Klassifikationssysteme verwendet. Zum Einsatz kamen dabei z.B. SNOMED CT (www.snomed.org) zur eindeutigen Bezeichnung von Diagnosen oder LOINC (https://loinc.org) als Standard für Labortests. Außerdem wurde der von der Standardisierungsorganisation Health Level 7 entwickelte Standard „Fast Healthcare Interoperability Resources“ (FHIR) verwendet, um einheitliche Datenstrukturen für den GECCO-Datensatz zu definieren. Durch die Verwendung dieser Terminologien und Standards ermöglicht GECCO eine einheitliche Erhebung und Verarbeitung von COVID-19-Studiendaten.

Enge Vernetzung mit der wissenschaftlichen Community

Wichtig für die erfolgreiche Anwendung von Standarddatensätzen wie GECCO ist eine enge Zusammenarbeit mit unterschiedlichen Stakeholdern des Gesundheitswesens und der wissenschaftlichen Community. Daher wurden bei der Entwicklung des GECCO-Datensatzes Fachleute aus den verschiedensten Disziplinen einbezogen. Darüber hinaus arbeitet GECCO eng mit Standardisierungsorganisationen wie HL7 und Integrating the Healthcare Enterprise (IHE) sowie mit anderen Initiativen wie der Medizininformatik-Initiative (www.medizininformatik-initiative.de), NFDI4Health (www.nfdi4health.de) und den Corona Component Standards (http://cocos.team) zusammen.

GECCO schafft so die Voraussetzungen, um wissenschaftliche Daten einheitlich zu erheben und Forschenden die studienübergreifende Analyse von COVID-19-Daten zu ermöglichen.

Quelle Handelsblatt Journal Health, Ausgabe November 2020