Auf Schatzsuche gehen in Data Lakes
Prof. Dr. Christoph Sturm (DHBW Mosbach) erklärt unserer Redaktion, wo sein Forschungsprojekt Datenschätze von Unternehmen findet, wie KI die Arbeitswelt verändert und welche Kompetenzen Fachkräfte von morgen brauchen.
Prof. Dr. Christoph Sturm, mit welchen Forschungsprojekten sind Sie und Ihr Team gerade beschäftigt?
Wir forschen an der DHBW Mosbach zum Thema Data Engineering, also Datenverarbeitung, Datenaufbereitung und Datenintegration von großen Datenmengen. Alle Daten eines Unternehmens werden heutzutage zentral in einem sogenannten Data Lake abgelegt. Der Ansatzpunkt unserer Forschung ist es, die dort vorhandenen, aber noch nicht nutzbaren Daten für Unternehmen mithilfe Künstlicher Intelligenz (KI) strukturiert und auffindbar darzustellen und so erstmalig eine Grundlage für deren effiziente Analyse zu schaffen. Wir lösen das Problem, indem ein Datenkatalog durch ein KI-System automatisiert gefüllt wird – das geschieht ohne zeitintensiven manuellen Aufwand. Wesentlicher Teil unseres Forschungsprojekts ist die sogenannte Semantic Type Detection: Wie baue ich ein System, das die wesentliche Information aus den Daten herausliest und in den Katalog integriert?
Welche Vorteile bietet die neue „DHBW-KI“ für Unternehmen?
Data Lakes werden häufig zum Data Swamp, zum Daten-Sumpf – sodass ein Unternehmen nicht mehr weiß, wo welche Daten zu finden sind. Damit liegen unfassbar wertvolle Ressourcen des Unternehmens brach oder, wenn sie so wollen, verschollen im Sumpf am Grund des Datensees. Je besser ich meine Daten kenne, desto handlungsfähiger bin ich. Unternehmen sollten automatisiert eine Art Landkarte für ihre Data Lakes durch KI erstellen lassen, sodass sie diese nicht mehr aufwendig pflegen müssen und dadurch bildlich gesprochen eine Versumpfung verhindern. Damit können sie wesentlich schneller und datenbasierter agieren. Vereinfacht ausgedrückt: Sie wissen dann, wo sie tauchen müssen, um ihren jeweiligen Datenschatz zu heben.
Welche Hürden mussten bei der Entwicklung gemeistert werden?
Bisherige Publikationen, auf die unsere Arbeit fußt, arbeiten mit sehr unterschiedlichen und somit auch sehr speziellen Data Lakes. Diese zu vereinheitlichen und somit qualitativ vergleichbar zu machen, war unsere erste Hürde. Ergebnis dieser immens aufwändigen Evaluation: Die Datenqualität dieser öffentlichen Data Lakes entsprach nicht unseren Erwartungen. Generell gestaltete es sich schwierig, überhaupt an Daten heranzukommen. Da die Daten für die Nachvollziehbarkeit der Forschungsergebnisse veröffentlich werden sollten, war es uns – berechtigterweise – nicht möglich, Zugang zu ‚realen‘ Unternehmensdaten zu bekommen. Wir mussten deshalb eine eigene qualitativ hochwertige Datensammlung aufbauen, um unseren Ansatz damit zu evaluieren. Diese verfolgt also keine Fragestellung einer einzelnen Firma, sondern ist allgemeingültig.
Eine weitere ständige Herausforderung war die zielgerichtete Verwaltung und Aufbereitung der Daten sowie die optimale Ausnutzung der uns zur Verfügung stehenden Rechenressourcen. Bei der Entwicklung von komplexen KI-Systemen sind enorme Rechenkapazitäten und Datenmengen für das Training der Neuronalen Netzwerke notwendig. Insbesondere da die meisten Experimente mit unterschiedlichen Einstellungen – Stichworte Hyperparametertuning und Random Seeds – wiederholt werden mussten, war eine ausgeklügelte Experimentplanung ein zentrales Erfolgskriterium.
Welche Vorteile und Inhalte bietet Ihr Studiengang „Data Science und KI“?
Der Studiengang setzt den Fokus auf Datenkompetenz, auch Data Literacy genannt. Die Studierenden erwerben ein umfassendes Grundlagenwissen, auf dessen Basis sie sich dann bereits im Verlauf ihres Studiums auf die späteren Berufsfelder Data Engineering, Data Analytics, Maschine Learning Development oder Machine Learning Engineering spezialisieren.
Das duale Studium an der DHBW findet zur Hälfte beim Partnerunternehmen statt, der Wissenstransfer zwischen Hochschule und Unternehmen ist damit sichergestellt. Die Studierenden schreiben ihre Projekt- und Bachelorarbeiten nicht für die Schublade, sondern finden anwendungs- und bedarfsorientierte Lösungen für konkrete Fragestellungen des Unternehmens.
Die Mehrheit von ihnen bleibt ihrem Partnerunternehmen auch nach Abschluss treu. Damit sind die Fachkräfte maßgeschneidert auf die eigenen Anforderungen qualifiziert, kennen und erforschen die Einsatzmöglichkeiten von KI und Data Science und können selbstständig deren Erfolgspotential einordnen und weiterentwickeln. Die Absolventinnen und Absolventen wissen, wie sie Daten zum Trainieren von Algorithmen des Maschinellen Lernens (ML) einsetzen können, wie diese Algorithmen funktionieren und wie man diese erweitern und konfigurieren kann, damit diese die gewünschte Verhaltensweise zeigen.
Welche Chancen bieten sich nach dem Abschluss?
Wir bilden in einem sehr jungen, unglaublich agilen Berufsfeld mit enormen Zukunftspotential aus. Dieses Wissen wird schon heute extrem gesucht. Der Arbeitsmarkt ruft nach diesen Fachkräften und diese Expertise wird noch rasanter an Bedeutung gewinnen, davon bin ich überzeugt. Datenmengen wachsen unaufhörlich, das Betätigungsfeld ist schon heute groß und wird sich in Zukunft noch mehr vergrößern und differenzieren. Wenn man beobachtet, was sich bereits allein in der Informatik und der Programmierung in den letzten zwei Jahren in diesem Zusammenhang getan hat und welchen umfassenden Einfluss KI schon heute im wirtschaftlichen und gesellschaftlichen Bereich hat, so werden unsere Studierende als gesuchte Experten weltweit und in allen Bereichen offene Türen vorfinden und sich entscheidend an der Zukunftsgestaltung beteiligen.
Wie wird sich die (Berufs-)welt durch die neuen Technologien verändern?
Die KI ist längst in unserem beruflichen und gesellschaftlichen Alltag angekommen und wird auch nicht mehr gehen. Schon heute nutzen wir alle täglich vielfältige KI-Anwendungen, zum Beispiel über Sprachassistenten auf dem Smartphone oder beim Erstellen von Texten mithilfe von ChatGPT oder anderer Chatbots. Ich sehe eine Chance darin, die wir nutzen sollten. Arbeitsabläufe werden dabei nicht zu 100 Prozent automatisiert – dazu gilt es noch viele rechtliche und nicht zuletzt ethische Fragestellungen zu klären – sondern ich sehe eine Arbeitserleichterung: KI kann Prozesse effizienter durchführen und bei Entscheidungen unterstützen. So werden Kapazitäten für andere Bereiche frei. Mag sein, dass KI in der öffentlichen Debatte teilweise zu sehr gehypt wird: In der Forschung werden Hollywood-Visionen auf absehbare Zeit nicht geschehen.
Ich halte es aber für zentral, dass wir uns vor Augen führen, was KI leisten kann. Es ist eine gesellschaftliche Aufgabe, sich mit den dadurch entstehenden gravierenden Veränderungen kritisch auseinanderzusetzen. Mein Appell lautet deshalb: Überlassen wir den Innovationsschub nicht den großen Technik-Unternehmen alleine, sondern gestalten und diskutieren wir aktiv mit.