Kategorie: Daten

Daten umfassen alle Informationen, die zur Verfügung stehen. Man muss sie ggf. sortieren, ergänzen und analysieren, um Nutzen aus Ihnen ziehen zu können.

  • In 13 Schritten eine robuste Datenstrategie implementieren

    In 13 Schritten eine robuste Datenstrategie implementieren

    [et_pb_section fb_built=“1″ _builder_version=“4.17.4″ _module_preset=“default“ custom_margin=“-42px|||||“ custom_padding=“0px|||0px||“ global_colors_info=“{}“][et_pb_row _builder_version=“4.17.4″ _module_preset=“default“ custom_padding=“0px|||||“ global_colors_info=“{}“][et_pb_column type=“4_4″ _builder_version=“4.17.4″ _module_preset=“default“ global_colors_info=“{}“][et_pb_text _builder_version=“4.17.4″ _module_preset=“default“ custom_padding=“0px|||||“ global_colors_info=“{}“]

    Sobald man den Wert von Daten begreift, stellt sich die Frage, wie man vorgehen sollte, also welche Strategie man anwendet. Wesentlich ist hier, deren Qualität zu prüfen und zu optimieren, Daten zu schützen und nach Anwendungsmöglichkeiten zu suchen. Eine robuste Datenstrategie umfasst daher Struktur, Qualität und Sicherheit der Daten, um letztlich Anwendungsmöglichkeiten der vorhandenen Informationen zu implementieren wie der Prognose von zukünftigen Entwicklungen oder die Vorhersage von Wartungen.

    Der Ausdruck Datenstrategie wird in den Medien unterschiedlich benutzt. Ich verwende ihn, um Daten systematisch auf die Erstellung von KI Modellen vorzubereiten. Die hier aufgelisteten Punkte sind also die Umsetzung des KIWI Prinzips, künstliche Intelligenz wirtschaftlich zu implementieren. 

     

    1 Quellen identifizieren

    Unternehmen benutzen meiner Erfahrung nach primär Dokumentenformate wie Excel und Word sowie verschiedene Datenbanken. Dazu kommen noch (hand-)schriftliche Aufzeichnungen,  PDFs, Fotos und ggf. Ton- bzw. Videoaufnahmen. Es geht zunächst darum herauszufinden, wo überall relevante Daten „schlummern“. Legen Sie zum Sammeln der Informationen ein einheitliches System fest, auf dem alle Beteiligten dort ihre Daten ablegen können (beispielsweise ein Netzwerklaufwerk).  

     

    2 Dateien organisieren 

    Zunächst einmal sollten Sie sich ein paar Gedanken machen, ob Sie Ihre Dateien speziell organisieren müssen. Dies beinhaltet sowohl die Ordnerstruktur als auch die Dateibenennung.  Ich empfehle hier, eine Kopie der Daten zu erstellen und mit diesen dann verschiedene Varianten auszuprobieren (so eine Art Sandbox Prinzip). Folgende Tipps dazu

    • Die Dateibenennung sollte eindeutig sein (auch über Ordner hinweg) und den Inhalt der Datei möglichst genau beschreiben. Bei zeitbezogenen Dateien stelle ich das Datum voran in der US Schreibweise (YYYY.MM.DD, also beispielsweise 2022.06.09).
    • Die Ordnerstruktur sollte thematisch von allgemein auf spezifisch erfolgen, wie die Systematik (Taxonomie) in der Biologie. So wenig Hierarchien wie möglich, aber so viele wie nötig. Als oberste Ebene benutze ich oft das Medium, also Text, Tabellen, Audio, Bild (einschließlich Video)

     

    3 Daten zusammenführen 

    Wenn möglich fasse ich mehrere Dateien in einer zusammen und gebe dieser eine interne Struktur, z.B. hierarchische Überschriften in Word oder einzelne Tags in Excel. Letzteres eignet sich gut, um für die Erstellung von KI Modellen kleine Trainingsdatensätze zu erzeugen. 

     

    Weiter geht es damit, die Datenqualität sicherzustellen. Für künstliche Intelligenz wurde der Grundsatz formuliert „rubbish in, rubbish out“ – also in etwa „Müll hinein stecken, Müll heraus bekommen“.

     4 Unwichtiges aussortieren 

    Alles, was nicht wesentlich ist, muss weg – Ballast entfernen. Am besten, man sammelt gar nicht erst unwichtige Informationen – und wenn doch, wird es jetzt Zeit, diese aussortieren. Das wird besonders wichtig, wenn Sie später ihre Daten analysieren. Unwichtige Informationen, die Sie noch nicht zusammengeführt haben, brauchen Sie natürlich gar nicht erst einbinden. 

    Sie sind sich nicht sicher, ob Informationen vielleicht später noch wichtig werden könnten? Dann speichern Sie die Daten einfach in einen neuen Ordner und löschen die Daten, falls Sie diese innerhalb der nächsten 6 Monate nicht benutzen.

     

    5 Daten bereinigen 

    Daten zu bereinigen enthält verschiedene Arbeitsschritte wie das Ergänzen fehlender Daten oder das Entfernen von Duplikaten. Dies kann oftmals automatisiert erfolgen, indem beispielsweise Filter angewendet oder fehlende Daten interpoliert werden. In manchen Fällen kann die Bereinigung sehr aufwendig werden, so dass Sie vorab prüfen sollten, ob sich die „manuelle“ Arbeit lohnt – vielleicht kommen Sie auch mit unvollständigen Daten zu einem funktionierendem Modell.

     

    6 Mehrdeutigkeiten ausschließen 

    Damit ist gemeint, dass beispielsweise zwei unterschiedliche Kundenkonten für dieselbe Person angelegt wurden (durch unterschiedliche Handy und Festnetz Telefonnummern). Solche Mehrdeutigkeiten sind in Hinblick auf künstliche Intelligenz schwierig, da leicht falsche Zusammenhänge „berechnet“ werden.

     

    Wenn Sie bis hierher die Punkte umgesetzt haben, steht Ihnen eine gute Datenbasis zur Verfügung. Diese gilt es durch die nächsten Arbeitsschritte zu schützen, also ein Teil der Cyber Sicherheit.

    7 Kopien erstellen 

    Ganz wesentlich ist die Erstellung von Sicherheitskopien – möglichst mehrere, die an unterschiedlichen Orten „gelagert“ werden. Sie sollten auch wiederkehrend das Zurückspielen einen Backups üben, um ggf. die richtigen Arbeitsschritte durchzuführen.

     

    8 Zugriff festlegen

    Wer braucht Lese- und Schreibrechte in Ihrem Unternehmen für welche Daten? Mitarbeitende sollten über eingeschränkten Zugriff verfügen und ihre Rechte individuell vergeben werden.

     

    9 Informationen verschlüsseln

    Manche Informationen sind so sensibel, dass man sie verschlüsseln sollte. Oder Dateien müssen „transportiert“ werden. Fragen Sie sich, ob dies der Fall ist und wenn ja, wie dies geschieht – beispielsweise der Upload in die Cloud, eine Kopie auf den USB Stick, usw. 

    Bitte bedenken Sie, dass ein Passwort ihre Office Dateien nur unzureichend schützt.

     

    10 Daten visualisieren 

    Visualisierung ist eine wichtige Hilfe, um ihre Daten zu verstehen und zu nutzen. Oft tut unser Gehirn das eigenständig, so dass wir Zusammenhänge sehen, da beispielsweise Punkte zu einer Linie interpoliert werden.  

    Dieses Thema ist auch „Geschmackssache“ und wenn Sie tiefer einsteigen möchten, wäre mein Tipp, ein paar Bücher zu diesem Thema anzusehen. Meine persönlicher Favoriten ist „Datenvisualisierung“ von Claus O. Wilke. 

     

    11 Zusammenhänge untersuchen 

    Mit Zusammenhängen sind hier einfache mathematische Funktionen gemeint, die Daten beschreiben und das beispielsweise die Abschätzung eines Wertes erlaubt. Bei kleineren Datensätzen lassen sich diese häufig noch mit den Standartfunktionen von Excel ableiten (und ihre Daten visualisieren). 

     

    12 KI Modelle erstellen 

    Wenn wir unterschiedliche Daten auf ihre inneren Zusammenhänge untersuchen wollen (oder noch keine Idee haben, wie die Informationen zueinander in Beziehung stehen), lassen sich KI Modelle erstellen und gegen Trainingsdaten testen. Wenn ein Zusammenhang erkannt wird, zeigt sich dies durch verschiedene Kenngrößen wie die Vorhersagewahrscheinlichkeit. Erreicht ihre künstliche Intelligenz hier einen hohen Wert – herzlichen Glückwunsch – Sie haben vielleicht eine interessante Erkenntnis gewonnen.

     

    13 Daten aktualisieren 

    In vielen Bereichen ist es wesentlich, dass Sie ihre Daten immer auf den neusten Stand halten. Das kann dazu führen, dass Modelle in regelmäßigen Abständen neu trainiert werden müssen. Unterschätzen Sie nicht Veränderungen im Datenbestand – es sind hier verschiedenen Blickwinkel zu beachten (ein neuer von 1000 Artikeln bedeutet nur 0.1% Änderung, aber vielleicht ist das ein Renner…

     

    Soweit zum Thema, eine robuste Datenstrategie zu implementieren. Dies ist ein wesentlicher Teil eines typischen KI Projektablaufs. Stellen Sie gerne Fragen oder geben Feedback über die Kommentarfunktion.

    [/et_pb_text][/et_pb_column][/et_pb_row][/et_pb_section]