Daten
Daten bilden das Fundament für jedes datengetriebene Projekt. Sie können entweder neu und in Echtzeit anfallen oder aus historischen Quellen stammen. In der KIWI Datenstrategie legen wir großen Wert darauf, dass Daten nicht nur gesammelt, sondern auch korrekt und effizient verarbeitet werden. Denn ohne saubere, gut strukturierte Informationen sind tiefergehende Analysen oder KI-Modelle fehleranfällig und liefern kaum Mehrwert.
1.1 Erfassen
Die Erfassung ist der allererste Schritt, wenn es darum geht, Daten in einem Unternehmen zu nutzen. Grundsätzlich lassen sich vier Methoden unterscheiden: Beobachtung (Mensch), Messung (Maschine), Recherche (Mensch) und Data Mining (Maschine). Diese Methoden decken ein breites Spektrum möglicher Datenquellen ab.
-
Beobachtung (Mensch)
- Manuelle Dokumentation: Häufig kann es sinnvoll sein, Informationen durch das geschulte Auge von Mitarbeitenden zu erheben. Zum Beispiel im Gesundheitswesen, wenn Pflegekräfte oder Ärztinnen und Ärzte Symptome, Vitalparameter oder besondere Auffälligkeiten notieren. Diese Art von Daten ist oftmals qualitativ oder kontextbezogen (etwa in Form von Textnotizen). Auch in der Prozessoptimierung in einer Fabrik kann man mit menschlicher Beobachtung starten: Wo sammeln sich Engpässe? Welche manuellen Schritte dauern ungewöhnlich lange?
- Qualitative Einsichten: Die Stärke dieser Methode liegt darin, dass Menschen Kontextwissen haben und einschätzen können, ob eine Abweichung relevant oder nur eine zufällige Laune ist. So kann ein Facharbeiter an einer Fertigungsstraße rasch erkennen, ob eine Maschine ungewöhnliche Geräusche macht – eine automatische Sensorik würde dafür erst konfiguriert werden müssen.
-
Messung (Maschine)
- Automatisierte Sensordaten: Gerade in der Healthcare-Branche oder in High-Tech-Fertigungsanlagen sind Maschinen längst mit Sensoren ausgestattet, die eine Vielzahl von Messwerten kontinuierlich erfassen. Beispiele sind EKGs, Blutdruckmessgeräte oder Überwachungssysteme in Intensivstationen. In der Industrie messen Sensoren unter anderem Temperatur, Druck, Vibration oder Durchsatzmengen.
- Echtzeitübertragung: Viele dieser Maschinen können Daten in Echtzeit an eine zentrale Datenbank oder Cloud-Plattform senden. Dadurch entstehen große, oft unstrukturierte Datenmengen, die mithilfe von Big-Data-Ansätzen verarbeitet werden müssen.
-
Recherche (Mensch)
- Historische Informationen: Manche Daten sind bereits vorhanden, wurden aber noch nie systematisch ausgewertet. Ein Krankenhaus könnte etwa seit Jahren die Anamnese-Daten seiner Patient:innen digital archivieren, ohne sie jemals für tiefergehende Analysen eingesetzt zu haben. In einer Produktionsanlage liegen möglicherweise Protokolle über Wartungszyklen oder Fehlerberichte vor.
- Marktforschung und Literatur: Teil der Recherche kann auch die Einbindung externer Studien, wissenschaftlicher Publikationen oder Marktdaten sein. So kann eine Pharmafirma beispielsweise globale Statistiken zu bestimmten Krankheiten abrufen, um eigene klinische Studien besser zu planen.
-
Data Mining (Maschine)
- Algorithmen-gesteuerte Suche nach Mustern: Data-Mining-Methoden durchsuchen große Datenmengen (z. B. Patient:innenakten, Produktionsdaten) nach Mustern, die auf statistischer Ebene interessant sind. Das können beispielsweise Cluster von Symptomen sein, die auf eine bestimmte Erkrankung hindeuten, oder Auffälligkeiten in den Qualitätsprotokollen einer Fertigungsstraße.
- Predictive Insights: Viele Data-Mining-Prozesse sind bereits darauf ausgelegt, nicht nur historische Muster zu erkennen, sondern auch Prognosen über die Zukunft zu liefern.
Echte Mehrwerte durch Kombination
In der Praxis lässt sich der größte Nutzen häufig durch eine Kombination dieser Methoden erzielen. Das heißt, sowohl menschliche Beobachtung als auch maschinelle Messung werden verknüpft, wodurch ein holistisches Bild entsteht. So kann beispielsweise im Gesundheitsbereich ein Anästhesist eine Patientin „qualitativ“ beobachten, während zugleich maschinell Vitalparameter gemessen werden. Das menschliche Urteil wird durch objektive Messwerte ergänzt und umgekehrt.
1.2 Verarbeiten
Nach der Erfassung müssen die Daten in einen Zustand gebracht werden, der für weitere Schritte (v. a. Analyse und KI) geeignet ist. Dieser Verarbeitungsprozess ist entscheidend, damit nicht unnötig „Datenmüll“ Einzug in die Analysen hält.
-
organisieren
- Struktur & Speicherung: Je nach Datenart und -menge kommen relationale Datenbanken, NoSQL-Lösungen oder Data Lakes zum Einsatz. Im Gesundheitsbereich kann das beispielsweise ein Data Warehouse sein, in dem Patientendaten DSGVO-konform abgelegt sind. In der industriellen Fertigung sind Data Lakes beliebt, um große IoT-Datenmengen zu speichern.
- Versionierung & Metadaten: Um Änderungen an den Daten nachvollziehbar zu machen, sind Versionierungskonzepte und eine gute Metadaten-Verwaltung unabdingbar. Dadurch kann ein Team immer zurückverfolgen, welche Daten wann verändert wurden.
-
(Qualität) verbessern
- Datenbereinigung: Häufig sind Datensätze unvollständig, doppelt vorhanden oder enthalten ungültige Werte. Eine gründliche Datenbereinigung wirkt sich direkt auf die Güte nachfolgender Modelle aus. Gerade in Kliniken ist es enorm wichtig, dass zum Beispiel Laborwerte eindeutig einer Person und einer bestimmten Zeit zugeordnet werden können.
- Anreicherungen: Manchmal fehlen wichtige Variablen, die für eine sinnvolle Analyse erforderlich sind. Dann kann man Daten anreichern, etwa durch das Hinzufügen von Demografiedaten oder Umweltdaten (Temperatur, Luftfeuchtigkeit) in der Produktion.
-
sichern
- Datenschutz & Zugriffsrechte: Besonders sensibel sind Gesundheitsdaten, weshalb klar definierte Rollen und Zugriffsrechte notwendig sind. Nur befugtes Personal oder autorisierte Systeme sollten Zugang zu bestimmten Datensätzen haben.
- Backups & Notfallkonzepte: Wenn Systeme ausfallen, ist es fatal, wenn Messwerte oder Patientenhistorien unwiederbringlich verloren gehen. Regelmäßige Backups und Notfallpläne (Disaster Recovery) sind daher ein Muss.
-
Iterativer Kreislauf
- Zurückschleife zur Analyse: Während der Analysephase stellen Analyst:innen oder Data Scientists oft fest, dass einzelne Datensätze unbrauchbar oder unvollständig sind. Dadurch werden Anpassungen im Verarbeitungsprozess nötig. Dieser iterative Kreislauf zwischen Verarbeiten und Analysieren sorgt dafür, dass die Datenqualität sukzessive steigt.
Beispiel aus der Praxis
In einem Krankenhaus stellt man fest, dass die Vitalwerte eines Patienten nicht korrekt erfasst wurden, da ein Messgerät kurzzeitig ausgefallen war. Bei der Analyse tauchen plötzlich Lücken im Datenstrom auf. Im Verarbeiten-Schritt wird entschieden, diese Lücken zu interpolieren oder die Daten zu verwerfen, je nach Genauigkeitsanspruch.
1.3 Analysieren
Nachdem die Daten erfasst und verarbeitet sind, folgt die zentrale Frage: Was sagen diese Daten tatsächlich aus? Die Analyse gliedert sich in mehrere Stufen, von der einfachen Exploration bis zur komplexen KI-Modellierung.
-
entdecken / erkunden (explorativ)
- Hypothesen bilden: In der klassischen Data Science werden zunächst deskriptive Methoden eingesetzt, um erste Einsichten zu gewinnen. So kann ein Team beispielsweise feststellen, dass bestimmte Komplikationen in der Chirurgie verstärkt bei Patient:innen ab 60 Jahren auftreten.
- Datenvisualisierung: Dashboards, Diagramme und Heatmaps sind wertvolle Tools, um Muster schnell zu erkennen. In der Industrie könnte man etwa Abweichungen in der Produktionslinie grafisch sichtbar machen, bevor sie sich zu größeren Problemen ausweiten.
-
beschreiben (Mensch-Maschine-Interaktion)
- Deskriptive Statistiken: Kennzahlen wie Mittelwerte, Standardabweichungen oder Korrelationen liefern einen Überblick.
- Interaktives Feedback: Menschliche Expertise ist unverzichtbar, um Daten in den richtigen Kontext zu setzen. Eine Maschine kann auffällige Werte erkennen, aber nur eine Ärztin oder ein Ingenieur kann genau bewerten, ob diese tatsächlich relevant sind.
-
diagnostizieren / merkmalisieren
- Ursachenforschung: Über statistische Verfahren, KI-Methoden oder klassische Analysetools wie Root-Cause-Analysen lässt sich ermitteln, warum eine bestimmte Anomalie auftritt. Vielleicht liegt es an einem fehlerhaften Bauteil in der Maschine oder an Interaktionen zwischen Medikamenten, die nur bei einer bestimmten Personengruppe auftreten.
- Merkmalserkennung: Gerade in der Bildverarbeitung werden Merkmale extrahiert, die auf eine bestimmte Diagnose oder einen Defekt hinweisen. Zum Beispiel könnte ein KI-System in MRT-Bildern Tumorstrukturen erkennen, die ein Mensch aufgrund der Datenmenge alleine nicht mehr überschauen kann.
-
vorhersagen (prädiktiv)
- Predictive Models: Wenn es gelingt, statistische Zusammenhänge oder Muster zu identifizieren, lassen sich Prognosen über die Zukunft erstellen. Das kann die Auslastung in einer Klinik betreffen (wie viele Intensivbetten werden nächste Woche benötigt?), aber auch die Wahrscheinlichkeit von Maschinenausfällen in einer Produktionsstraße.
- Maschinelles Lernen: Mittels Machine-Learning-Verfahren (z. B. Random Forest, Neuronale Netze) werden Modelle trainiert, um bestimmte Ereignisse zu antizipieren. Der Wert dieser Methode liegt darin, dass Organisationen proaktiv agieren können, etwa Wartungen vorziehen oder Personal besser planen.
-
erzwingen (präskriptiv) → KI Modelle
- Handlungsempfehlungen & Automatisierung: Bei der präskriptiven Analyse – oft als Prescriptive Analytics bezeichnet – geht es darum, nicht nur Vorhersagen zu treffen, sondern auch automatisch oder semi-automatisch Entscheidungen vorzuschlagen.
- Beispiel Healthcare: Auf Basis eines Modells, das feststellt, welche Patient:innen ein hohes Risiko für Komplikationen haben, kann ein Frühwarnsystem eingerichtet werden, das einer OP-Schwester oder einem Chirurgen konkrete Handlungsanweisungen gibt (z. B. weitere Diagnostik anordnen, bestimmte Medikamente bereithalten etc.).
- Beispiel Prozessoptimierung: Fällt ein System in der Fertigung auf, das mit hoher Wahrscheinlichkeit bald ausfällt, könnte automatisch eine Wartungstermin-Einplanung im Ressourcenmanagementsystem eingeleitet werden.
Insgesamt bildet dieser Teil der KIWI Datenstrategie eine Brücke zur künstlichen Intelligenz im engeren Sinne: Denn viele Analysen münden schließlich in den Einsatz von KI-Modellen, die Prozesse und Entscheidungen unterstützen oder sogar eigenständig treffen.