Schlagwort: Strategie

  • Wie läuft ein typisches KI Projekt ab?

    Wie läuft ein typisches KI Projekt ab?

    [et_pb_section fb_built=“1″ admin_label=“section“ _builder_version=“4.16″ global_colors_info=“{}“][et_pb_row admin_label=“row“ _builder_version=“4.16″ background_size=“initial“ background_position=“top_left“ background_repeat=“repeat“ global_colors_info=“{}“][et_pb_column type=“4_4″ _builder_version=“4.16″ custom_padding=“|||“ global_colors_info=“{}“ custom_padding__hover=“|||“][et_pb_text admin_label=“Text“ _builder_version=“4.16″ background_size=“initial“ background_position=“top_left“ background_repeat=“repeat“ global_colors_info=“{}“]

    Ein typisches KI Projekt umfasst die folgenden 4 Phasen: Problem definieren, Daten aufbereiten, Modell trainieren und Vorhersagen treffen. Dauer und Aufwand der einzelnen Phasen hängen natürlich vom Umfang der Aufgabenstellung ab (in Klammern finden Sie die Anteile, die nach unserer Erfahrung als Richtschnur benutzt werden können).

     

    1 Fragestellung formulieren (20%) 

    In der ersten Phase wird zunächst das Problem analysiert und präzisiert. Um eine KI sinnvoll einsetzen zu können, muss es sich um eine datengetriebene Fragestellung handeln, d.h. die Herausforderung muss sich mit Hilfe von Mustern in den Daten lösen lassen. Ist dies nicht der Fall, lassen sich ggf. Lösungen durch klassisches Programmieren finden.

    Außerdem werden die nächsten Phasen „durchgespielt“, um Verantwortlichkeiten zu identifizieren und mögliche Schwierigkeiten zu lösen. Insbesondere die Datenaufbereitung (Punkt 2) erfordert viele Absprachen, um den Aufwand möglichst gering zu halten.

    Neben den technischen und organisatorischen Einschätzungen zur Durchführbarkeit sollte eine Aufwandsabschätzung erfolgen, um die Kosten gegen den Nutzen abzuwägen. 

    Sobald die Entscheidung zur Durchführung des KI Projektes gefällt wurde, werden die verschiedenen Aspekte schriftlich fixiert. Zur Dokumentation  kleiner Projekte benutzen wir iThoughts, einer MindMapping Software, die um einige Module zur Projektarbeit erweitert wurde. Für größere Projekte benutzen wir Microsoft Project, insbesondere wenn zusätzlich externe Dienstleister eingebunden werden.

     

    2 Daten aufbereiten (40%)

    In der 2. Phase werden die vorhandenen Daten für das KI Projekt gesammelt, gesichtet und in eine für die künstliche Intelligenz lesbare Form gebracht. Oftmals wird zunächst ein kleinerer Datensatz erzeugt, um das Training in der nächsten Phase in Form eines Prototypen-Modells zu testen. Dies gibt hilfreiche Hinweise zum weiteren Vorgehen mit den Daten, beispielsweise ob Informationen fehlen oder überflüssige Daten mitgeschleppt wurden. Im Blog finden Sie noch weitere Tipps für eine robuste Datenstrategie.

     

    3 Modell trainieren  (30%)

    Die Daten werden zunächst in Trainings- und Testdaten aufgeteilt (Split), mit denen das Modell unabhängig trainiert und getestet werden kann (ohne dass es zu Überschneidungen kommt).

    Eigentlich müsste hier Modell im Plural stehen, weil typischerweise mehrere (iterative) Versuche notwendig sind, um das finale Modell zu trainieren. Die Variationen liegen zum einen in den unterschiedlichen Algorithmen, die für das jeweilige Problem zu Verfügung stehen. Diese unterscheiden sich in einigen Fällen qualitativ voneinander, so dass man den für ein Problem optimalen Algorithmus direkt auswählen kann (Beispiel). Wenn dies nicht der Fall ist, müssen mehrere Algorithmen miteinander verglichen werden.

    Außerdem besitzt jeder Algorithmus verschiedene (Hyper-)Parameter, mit denen sozusagen ein Finetuning stattfindet.

    Die Qualität des jeweiligen Modells wird mit Hilfe der Testdaten evaluiert. Dazu werden statistische Größen wie der Abweichung zwischen erwarteter Vorhersage und Ausgabe des Modells berechnet. Ist dieser Wert klein, spricht das für eine gute Vorhersage des Modells.

     

    4 Vorhersagen treffen (10%)

    Wenn der Kunde mit den Ergebnissen des Modells zufrieden ist, wird dies in eine Umgebung „ausgerollt“, von wo aus die beteiligten Benutzergruppen auf die Vorhersagen des Modells zugreifen können. Dazu gehört natürlich auch deren Schulung sowie Anpassungen aufgrund des Feedbacks.

    Einige Arbeiten können bereits nach Erstellung des Prototypen-Modells während der 2. Phase begonnen und in Phase 3 fortgesetzt werden, um die Dauer der 4. Phase möglichst gering zu halten.

    Bei manchen Aufgabenstellungen muss das Modell von Zeit zu Zeit mit aktualisierten Daten „nachtrainiert“ werden, damit die Vorhersagen dauerhaft verlässlich bleiben.

     

    [/et_pb_text][/et_pb_column][/et_pb_row][/et_pb_section]

  • In 13 Schritten eine robuste Datenstrategie implementieren

    In 13 Schritten eine robuste Datenstrategie implementieren

    [et_pb_section fb_built=“1″ _builder_version=“4.17.4″ _module_preset=“default“ custom_margin=“-42px|||||“ custom_padding=“0px|||0px||“ global_colors_info=“{}“][et_pb_row _builder_version=“4.17.4″ _module_preset=“default“ custom_padding=“0px|||||“ global_colors_info=“{}“][et_pb_column type=“4_4″ _builder_version=“4.17.4″ _module_preset=“default“ global_colors_info=“{}“][et_pb_text _builder_version=“4.17.4″ _module_preset=“default“ custom_padding=“0px|||||“ global_colors_info=“{}“]

    Sobald man den Wert von Daten begreift, stellt sich die Frage, wie man vorgehen sollte, also welche Strategie man anwendet. Wesentlich ist hier, deren Qualität zu prüfen und zu optimieren, Daten zu schützen und nach Anwendungsmöglichkeiten zu suchen. Eine robuste Datenstrategie umfasst daher Struktur, Qualität und Sicherheit der Daten, um letztlich Anwendungsmöglichkeiten der vorhandenen Informationen zu implementieren wie der Prognose von zukünftigen Entwicklungen oder die Vorhersage von Wartungen.

    Der Ausdruck Datenstrategie wird in den Medien unterschiedlich benutzt. Ich verwende ihn, um Daten systematisch auf die Erstellung von KI Modellen vorzubereiten. Die hier aufgelisteten Punkte sind also die Umsetzung des KIWI Prinzips, künstliche Intelligenz wirtschaftlich zu implementieren. 

     

    1 Quellen identifizieren

    Unternehmen benutzen meiner Erfahrung nach primär Dokumentenformate wie Excel und Word sowie verschiedene Datenbanken. Dazu kommen noch (hand-)schriftliche Aufzeichnungen,  PDFs, Fotos und ggf. Ton- bzw. Videoaufnahmen. Es geht zunächst darum herauszufinden, wo überall relevante Daten „schlummern“. Legen Sie zum Sammeln der Informationen ein einheitliches System fest, auf dem alle Beteiligten dort ihre Daten ablegen können (beispielsweise ein Netzwerklaufwerk).  

     

    2 Dateien organisieren 

    Zunächst einmal sollten Sie sich ein paar Gedanken machen, ob Sie Ihre Dateien speziell organisieren müssen. Dies beinhaltet sowohl die Ordnerstruktur als auch die Dateibenennung.  Ich empfehle hier, eine Kopie der Daten zu erstellen und mit diesen dann verschiedene Varianten auszuprobieren (so eine Art Sandbox Prinzip). Folgende Tipps dazu

    • Die Dateibenennung sollte eindeutig sein (auch über Ordner hinweg) und den Inhalt der Datei möglichst genau beschreiben. Bei zeitbezogenen Dateien stelle ich das Datum voran in der US Schreibweise (YYYY.MM.DD, also beispielsweise 2022.06.09).
    • Die Ordnerstruktur sollte thematisch von allgemein auf spezifisch erfolgen, wie die Systematik (Taxonomie) in der Biologie. So wenig Hierarchien wie möglich, aber so viele wie nötig. Als oberste Ebene benutze ich oft das Medium, also Text, Tabellen, Audio, Bild (einschließlich Video)

     

    3 Daten zusammenführen 

    Wenn möglich fasse ich mehrere Dateien in einer zusammen und gebe dieser eine interne Struktur, z.B. hierarchische Überschriften in Word oder einzelne Tags in Excel. Letzteres eignet sich gut, um für die Erstellung von KI Modellen kleine Trainingsdatensätze zu erzeugen. 

     

    Weiter geht es damit, die Datenqualität sicherzustellen. Für künstliche Intelligenz wurde der Grundsatz formuliert „rubbish in, rubbish out“ – also in etwa „Müll hinein stecken, Müll heraus bekommen“.

     4 Unwichtiges aussortieren 

    Alles, was nicht wesentlich ist, muss weg – Ballast entfernen. Am besten, man sammelt gar nicht erst unwichtige Informationen – und wenn doch, wird es jetzt Zeit, diese aussortieren. Das wird besonders wichtig, wenn Sie später ihre Daten analysieren. Unwichtige Informationen, die Sie noch nicht zusammengeführt haben, brauchen Sie natürlich gar nicht erst einbinden. 

    Sie sind sich nicht sicher, ob Informationen vielleicht später noch wichtig werden könnten? Dann speichern Sie die Daten einfach in einen neuen Ordner und löschen die Daten, falls Sie diese innerhalb der nächsten 6 Monate nicht benutzen.

     

    5 Daten bereinigen 

    Daten zu bereinigen enthält verschiedene Arbeitsschritte wie das Ergänzen fehlender Daten oder das Entfernen von Duplikaten. Dies kann oftmals automatisiert erfolgen, indem beispielsweise Filter angewendet oder fehlende Daten interpoliert werden. In manchen Fällen kann die Bereinigung sehr aufwendig werden, so dass Sie vorab prüfen sollten, ob sich die „manuelle“ Arbeit lohnt – vielleicht kommen Sie auch mit unvollständigen Daten zu einem funktionierendem Modell.

     

    6 Mehrdeutigkeiten ausschließen 

    Damit ist gemeint, dass beispielsweise zwei unterschiedliche Kundenkonten für dieselbe Person angelegt wurden (durch unterschiedliche Handy und Festnetz Telefonnummern). Solche Mehrdeutigkeiten sind in Hinblick auf künstliche Intelligenz schwierig, da leicht falsche Zusammenhänge „berechnet“ werden.

     

    Wenn Sie bis hierher die Punkte umgesetzt haben, steht Ihnen eine gute Datenbasis zur Verfügung. Diese gilt es durch die nächsten Arbeitsschritte zu schützen, also ein Teil der Cyber Sicherheit.

    7 Kopien erstellen 

    Ganz wesentlich ist die Erstellung von Sicherheitskopien – möglichst mehrere, die an unterschiedlichen Orten „gelagert“ werden. Sie sollten auch wiederkehrend das Zurückspielen einen Backups üben, um ggf. die richtigen Arbeitsschritte durchzuführen.

     

    8 Zugriff festlegen

    Wer braucht Lese- und Schreibrechte in Ihrem Unternehmen für welche Daten? Mitarbeitende sollten über eingeschränkten Zugriff verfügen und ihre Rechte individuell vergeben werden.

     

    9 Informationen verschlüsseln

    Manche Informationen sind so sensibel, dass man sie verschlüsseln sollte. Oder Dateien müssen „transportiert“ werden. Fragen Sie sich, ob dies der Fall ist und wenn ja, wie dies geschieht – beispielsweise der Upload in die Cloud, eine Kopie auf den USB Stick, usw. 

    Bitte bedenken Sie, dass ein Passwort ihre Office Dateien nur unzureichend schützt.

     

    10 Daten visualisieren 

    Visualisierung ist eine wichtige Hilfe, um ihre Daten zu verstehen und zu nutzen. Oft tut unser Gehirn das eigenständig, so dass wir Zusammenhänge sehen, da beispielsweise Punkte zu einer Linie interpoliert werden.  

    Dieses Thema ist auch „Geschmackssache“ und wenn Sie tiefer einsteigen möchten, wäre mein Tipp, ein paar Bücher zu diesem Thema anzusehen. Meine persönlicher Favoriten ist „Datenvisualisierung“ von Claus O. Wilke. 

     

    11 Zusammenhänge untersuchen 

    Mit Zusammenhängen sind hier einfache mathematische Funktionen gemeint, die Daten beschreiben und das beispielsweise die Abschätzung eines Wertes erlaubt. Bei kleineren Datensätzen lassen sich diese häufig noch mit den Standartfunktionen von Excel ableiten (und ihre Daten visualisieren). 

     

    12 KI Modelle erstellen 

    Wenn wir unterschiedliche Daten auf ihre inneren Zusammenhänge untersuchen wollen (oder noch keine Idee haben, wie die Informationen zueinander in Beziehung stehen), lassen sich KI Modelle erstellen und gegen Trainingsdaten testen. Wenn ein Zusammenhang erkannt wird, zeigt sich dies durch verschiedene Kenngrößen wie die Vorhersagewahrscheinlichkeit. Erreicht ihre künstliche Intelligenz hier einen hohen Wert – herzlichen Glückwunsch – Sie haben vielleicht eine interessante Erkenntnis gewonnen.

     

    13 Daten aktualisieren 

    In vielen Bereichen ist es wesentlich, dass Sie ihre Daten immer auf den neusten Stand halten. Das kann dazu führen, dass Modelle in regelmäßigen Abständen neu trainiert werden müssen. Unterschätzen Sie nicht Veränderungen im Datenbestand – es sind hier verschiedenen Blickwinkel zu beachten (ein neuer von 1000 Artikeln bedeutet nur 0.1% Änderung, aber vielleicht ist das ein Renner…

     

    Soweit zum Thema, eine robuste Datenstrategie zu implementieren. Dies ist ein wesentlicher Teil eines typischen KI Projektablaufs. Stellen Sie gerne Fragen oder geben Feedback über die Kommentarfunktion.

    [/et_pb_text][/et_pb_column][/et_pb_row][/et_pb_section]