Ziele
Experten in der RDA sind sich einig, dass
- viel zu viel Zeit von Data Scientists mit dem Finden von interessanten Daten, Tools und Diensten verloren geht - ein schnellere Selektion basierend auf reichhaltigen Metadaten und Typen würde die Suche verschnellen und somit die Möglichkeit der Wiederverwendung von Daten effektiv verbessern
- Data Scientists mit zu vielen Details in einer stetig komplexeren Landschaft konfrontiert werden und eigentlich lediglich auf einer höheren Anstraktionsstufe arbeiten wollen, um Skalierbarkeit in der Arbeit zu erreichen: Wissenschaftliche Digital Objekte
- Data Scientists und Manager die Möglichkeit eines umfassenden Verfolgens der von ihnen erzeugten Daten und eine Reproduzierbarkeit von Resultaten haben möchten, um Verifikationen vorzunehmen und Vertrauen zu erzeugen
- ein neuer Impuls benötigt wird, um ein höheres Maß an Interoperabilität auch zwischen Disziplingrenzen zu erzielen und somit die enorme Fragmentation durch die unzähligen momentan vorhandenen Lösungen zu überwinden
- weitaus verbesserte Wege hin zu automatisch erzeugten Annotationen und Aussagen benötigt werden, um das in den Daten enthaltene Wissen zu erfassen und im Sinne der Gesellschaft einzusetzen
3 Studien aus den letzten Jahren deuten die großen Herausforderungen an, die durch die Milliarden Smart Devices (IoT) noch weiter auf die Spitze getrieben werden. Es ist die riesige Ineffizienz, die ein professionelleres Umgehen mit Daten und eine breitere Teilnahme verhindert.
- RDA EU 2013 Studie (auch basierend auf Radieschen und EUDAT Informationen): 75 % der Zeit von Data Scientists geht mit dem sogenannten "Data Wranling" verloren, in dem all Stufen zusammengefasst werden, die ausgeführt werden müssen, bis man zur eigentlichen Analysarbeit kommt.
- MIT Studie (laut Michae Brodie vom MIT): 80% der Zeit von Data Scientists geht mit den "Data Wrangling" Aufgaben verloren.
- CrowdFlower 2017 Studie (Industrie): 79% der Zeit von Data Scientists geht mit den "Data Wrangling" Aufgaben verloren.
Dies bedeutet, dass die größten Kostenfaktoren in der Daten-intensiven Wissenschaft und Industrie in der ungenügenden Organisation von Daten und in den Problemen mit der schlechten Qualität von Daten und Metadaten begründet liegen. Natürlich sind auch die Herausforderungen im Bereich der semantischen Integration und Analyse sehr hoch, allerdings trifft dies weniger auf die Verwendung von Metadaten aufgrund ihrer zumeist eingeschränkten semantischen Domäne zu, soondern vielmehr auf die Beschreibung von wissenschaftlichen Inhalten. In dieser Hinsicht ist aufgrund vieler bekannter Phänomäne wie z.B. dem Semantic Shift viel Aufwand erforderlich, um Daten derart integrieren zu können, um weitere Analysen vornehmen zu können. Viele Ansätze aus dem Bereich des Semantic Web geben hier Hilfen und Richtungen an.
Die RDA hat sich zum Ziel gesetzt, die sozialen und technischen Voraussetzungen für einen vermehrten Datenaustausch und eine einfachere Wiederverwendung von Daten zu verbessern. Es setzt dabei auf einen bottom-up Ansatz, der die Fachleute über Länder- und Disziplingrenzen hinweg zusammenbringt. Wir sind der Ansicht, dass nur über einen derartigen Ansatz die mehr oder weniger großen Hürden überwunden werden können und sind uns bewusst darüber, dass ein solcher Ansatz Zeit braucht.
Die RDA DE Community und der RDA DE e.V. hat das Ziel, diesen RDA Ansatz zu fördern, Interessierte aufzufordern, für die Arbeit an Spezifikationen in den RDA Gruppen mitzuwirken, und auch die Resultate der RDA (und anderer Initiativen wie z.B. OAI und W3C) aktiv zu verbreiten.