Viele Unternehmen erkennen das große Potenzial, das Data Science und künstliche Intelligenz (KI) ihnen bieten. Trotzdem scheint die Hürde zum ersten erfolgreichen Data Science-Projekt hoch: Einzelne Projektschritte wirken schwammig, der Aufwand insgesamt schwer zu durchschauen. In diesem Blogbeitrag möchte ich beleuchten, wie der Ablauf eines gelungenen Data Science-Projekts aussieht und was es auf dem Weg dorthin zu beachten gilt.
Ob das Projekt unternehmensintern, also mit einer eigenen Data Science-Abteilung, oder gemeinsam mit einem externen Partner umgesetzt wird, ist erstmal zweitrangig – der Ablauf und die Herausforderungen während des Projekts sind in beiden Fällen nahezu identisch. Der nachfolgend beschriebene Ablauf ist dabei als grobes Rahmenwerk zur Orientierung, nicht als strenges Korsett, zu verstehen.
First things first: Den richtigen Use Case finden
Bei einem Data Science-Projekt sind die ersten Schritte für gewöhnlich die aufregendsten, denn zu Beginn dreht sich alles um die Vision hinter dem Projekt: der Nutzen, der mithilfe der Daten generiert werden soll. Am Ende dieser ersten Phase steht der identifizierte Use Case mit klar definierter Fragestellung und Zielsetzung. Was im ersten Moment vielleicht einfach klingt, kann jedoch eine durchaus herausfordernde Aufgabe sein, in die man ausreichend Ressourcen investieren sollte. Unserer Projekterfahrung nach lohnt es, sich zu Beginn die Zeit zu nehmen, herauszufinden, wo im eigenen Unternehmen überhaupt Potenziale und Anknüpfungspunkte für KI-Themen liegen. Was macht für das Unternehmen Sinn, was nicht?
Im nächsten Schritt gilt es, unter den vielen potenziellen Anwendungsmöglichkeiten, Geschäftsbereichen und Problemstellungen den einen Use Case auszuwählen, der den gewünschten Mehrwert verspricht. Spätestens jetzt sollten auch die Personen einbezogen werden, die am Schluss von der Lösung profitieren und damit arbeiten sollen. End-Nutzer*innen können entscheidenden Input liefern und etwaige Akzeptanzprobleme hinsichtlich der KI lassen sich im Keim ersticken, wenn man die Mitarbeiter*innen gelungen und früh genug ‚abholt‘.
Bei den Daten gilt: Strenge walten lassen
Steht der Anwendungsfall fest, muss der Fokus auf die Daten gerichtet werden. Hier zahlt es sich aus, die Daten, mit denen gearbeitet werden soll, bereits früh im Prozess möglichst kritisch unter die Lupe zu nehmen. Denn der Datensatz ist die Grundlage jeder Analyse und mit den Daten steht und fällt der zuvor erdachte Use Case. Selbstverständlich haben Unternehmen meist eine riesige Masse an Daten vorliegen – teilweise fehlen aber leider genau die Daten, die für die Analyse und die Umsetzung des Anwendungsfalls entscheidend wären. Deshalb prüft das Data Science-Team an dieser Stelle genau, ob der vorhandene Datensatz die relevanten Daten enthält oder ob es Sinn macht, ihn durch externe Datenquellen anzureichern.
Mit den richtigen Algorithmen zum KI-Modell
Je nach Art der Frage, die beantwortet werden soll, steht eine ganze Reihe an Algorithmen für die Modellierung zur Verfügung. Doch welche davon eignen sich bei der vorliegenden Fragestellung am besten? Sollte auf Deep Learning zurückgegriffen werden oder reichen einfache statistische Verfahren aus? Der vielversprechendste Ansatz wird gewählt, die Aufgabenstellung modelliert und anschließend auf der definierten Datenbasis trainiert sowie validiert.
Erfolgreich zu Ende bringen
Idealerweise wird durch den Proof of Concept (POC) das Projektkonzept bestätigt und ein Machbarkeitsnachweis erbracht. Allerdings kann sich hier auch herausstellen, dass die Ergebnisse noch nicht ausreichen, um den eingangs definierten Nutzen zu erzielen. In diesen Fällen ist es unabdingbar, nochmal ein, zwei Schritte weiter vorne anzusetzen und etwa bei der Datenqualität nachzubessern oder ein anderes Optimierungsmodell zu wählen. Auch aus vermeintlich ‚gescheiterten‘ Ansätzen gewinnt man eine Menge Erkenntnisse: Zum Beispiel über Datenlage, Datenqualität oder darüber, an welchen Stellen die Unternehmensprozesse von den Annahmen abweichen.
Doch gehen wir einmal vom Idealfall aus: Die Analyseergebnisse bestätigen einen operativen Mehrwert und das Projekt kann sich seinem Abschluss nähern. Um den Prototyp produktiv zu setzen, schafft das Projektteam Schnittstellen zu den bestehenden Systemen und integriert ihn dann in die Unternehmensprozesse.
Iterative Prozesse anstelle eines Wasserfalls
Aufgrund der speziellen Anforderungen arbeitet man in Data Science-Projekten im Regelfall agil und durchläuft iterative Zyklen. Das ist nicht nur sinnvoll, sondern schlichtweg notwendig, denn oft entwickelt sich ein Projekt schrittweise: Anforderungen ändern sich, gegebenenfalls erschließen sich neue Datenquellen oder es ergeben sich aus den zwischenzeitlich gewonnenen Erkenntnissen neue Fragestellungen. Ein agiler Ansatz ermöglicht es dem Projektteam, schnell auf die veränderten Anforderungen zu reagieren, Aufgaben neu zu priorisieren oder den Projektverlauf anzupassen.
Keywords
Weitere passende Blogbeiträge
Fündig geworden?
Starten Sie jetzt Ihre intelligente Suche