Schöne, neue Risiken Checkliste für den Einsatz von Künstlicher Intelligenz

Ein Gastbeitrag von Marcel Uetzels * 9 min Lesedauer

Zwischen der Begeisterung für den Einsatz von KI, ihrem Nutzen und den Bedenken besteht ein schwieriges Dreiecksverhältnis. Die folgende Aufstellung kann als vor- oder nachgelagerte Checkliste für den nachhaltigen und verantwortungsvollen Einsatz von generativer KI in IT-Eigenentwicklungen dienen.

Beim Einsatz von generativer KI lauern eine Security- und Compliance-Risiken, mit denen man sich auseinandersetzen sollte.(Bild:  Placidplace /  Pixabay)
Beim Einsatz von generativer KI lauern eine Security- und Compliance-Risiken, mit denen man sich auseinandersetzen sollte.
(Bild: Placidplace / Pixabay)

Die folgende Aufstellung kann als vor- oder nachgelagerte Checkliste für den nachhaltigen und verantwortungsvollen Einsatz von generativer KI in IT-Eigenentwicklungen dienen. Es handelt sich eher um eine Erinnerungsstütze, die sicherstellen soll, dass wichtige Aspekte ausreichend beleuchtet wurden, als um eine Anleitung dazu, wie dies in Einzelfällen umzusetzen ist.

Für einen Teil der Themen finden sich leicht weitere Quellen, andere sind wiederum so jung, dass hier die Entwicklerinnen und Entwickler, sowie Software-Architektinnen und Architekten gefordert sind, sich mit unerforschten Gebiet auseinanderzusetzen und vor allem geeignete Räume zu schaffen, in denen diese Erkundung stattfinden kann.

Checkliste

1. Setze ich KI um ihrer selbst willen ein, wegen der ganzen Aufregung und des Hypes?

Habe ich alle alternativen Umsetzungswege geprüft? Klassische Algorithmen sind oft genauer und energie- und kosteneffizienter als LLMs, aber vor allem auch deterministisch stabil und damit besser und kostengünstiger kontrollierbar. Dabei hilft es, im Hinterkopf zu behalten, dass ich nicht vorhersagen und annähernd bestimmen muss, was ich exakt berechnen kann. Die Ergebnisse von GenAI haben nur dann einen Wertvorteil, wenn ich stattdessen kein exaktes und deterministisches Ergebnis liefern kann.

In diesem Kontext sollte ich mich auch fragen, ob ein bestimmter Umsetzungsweg eine legitime Anforderung sein darf. Ich sollte keine Aufträge über eine „KI-Lösung“ annehmen und stattdessen weiterhin nach dem bestmöglichen Lösungsansatz für ein Problem suchen. Ob dieses dann mit oder ohne entsprechende KI-Bestandteile geliefert wird, sollte nicht von der Kernanforderung vorgeschrieben werden. Die Herausforderung bleibt seit jeher gleich: Einige Stakeholder lieben Schlagwörter und IT-Hypes, weil sie sich schlicht leichter verkaufen lassen.

Der Ruf nach KI-Lösungen sollte eine geordnete Vorgehensweise nicht stören: Kenne dein Problem, analysiere es, bestimme sein Wertversprechen und finde erst dann den bestmöglichen Realisierungsansatz. Sehr oft führt dies zu einer hybriden Lösung, die traditionelle Algorithmen und klassische KI mit neuen GenAI-Techniken kombiniert. In solchen Szenarien kommt den klassischen Lösungsanteilen auch noch eine neue Bedeutung zu, wenn es darum geht, Entscheidungsprozesse explizit nachvollziehbar zu machen.

2. Kann ich fertige Produkte oder Dienstleistungen nutzen?

Auch dies ist keine neue Frage, sie erhält jedoch eine neue Brisanz. Denn die Welt der GenAI ist sehr jung und wir neigen in dieser frühen Nutzungsphase dazu, selbst Lösungen zu entwickeln, die bald als konfigurierbare Plattformen lizenziert werden können. Diese Produkte sind möglicherweise auf einem höheren Qualitäts- und Skalierungsniveau, als ich es als „Nicht-Softwareunternehmen“ jemals erreichen werde.

Ich weiß, was SAP Joule, Microsoft Bing Chat Enterprise und andere Copilot-Produkte heute leisten können, und ich höre täglich, was sie morgen wahrscheinlich tun können. Vielleicht ist es erstrebenswerter, den Überblick zu behalten, um die Auswahl, Konfiguration und Integration dieser Produkte zu beherrschen, anstatt zu versuchen, sie für kurzfristige Wettbewerbsvorteile zu übertrumpfen?

Was zunächst nach einer notwendigen Spezialisierung aussieht, kann sich morgen als eine überwundene Schwäche der frühen Plattformprodukte entpuppen. Ein Beispiel: Vor 2 Monaten dachten wir alle, dass wir komplexe RAG- Konstrukte (Retrieval Augmented Generation) nativ, aus dem Effeff beherrschen müssen, weil die Welt nach sicheren GenAI-Lösungen ruft. Nach den jüngsten Ankündigungen von OpenAI in Bezug auf die konfigurierbaren GPTs darf dies nunmehr in Frage gestellt werden. Ein Gefühl für das richtige Maß und Realitätssinn sind gefragt.

3. Standards müssen neu betrachtet werden

Wenn ich mich entscheide, selbst zu entwickeln, sollte ich Fragen zu den Inhalten und Verhalten meiner GenAI stellen.

  • 1. Ist meine Anwendung in der Lage Datenschutz und Privatsphäre zu respektieren? Dies gilt für alle (Daten-)Dimensionen: Eingehend und ausgehend; nutzerzentriert und inhaltsorientiert, für das Modell-Basistraining, RAG-Anbindungen, Feintuning, kontinuierliches Lernen und Feedback-Verarbeitung. Dieser multidimensionale Charakter ist auch für die folgenden Punkte wichtig:
  • 2. Ist die GenAI-Lösung in der Lage Zugriffsrechte bei der Beantwortung von Fragen zu respektieren?
  • 3. ... Antworten für ein variables Zielpublikum unter Beachtung einer vorgegebenen Datenklassifizierung zu generieren?
  • 4. ... Rechte an geistigem Eigentum, auch von Dritten, zu respektieren?

Darüber hinaus sollte ich wissen was passiert, wenn ich meine Anwendung mit potenziell kritischen Fragen konfrontiere. Die Liste sensibler Themen ist lang und beginnt mit Politik und Religion. Ist meine KI vorurteilsfrei und entspricht sie meinen Compliance-Richtlinien beim Generieren von Antworten?

Wenn ich glaube, dass diese Aspekte ausreichend berücksichtigt wurden – sollte ich außerdem automatische Tests implementieren, um die oben genannten Merkmale nachzuweisen und gewarnt zu werden, wenn sich das Verhalten des Modells im Laufe der Zeit verändert. Ich sollte nicht-technische und bereichsunabhängige Fragenkataloge für Systemtests und in CQC-Systemen (Continuos Quality Control) als Smoke-Tests verwenden und in einem MLOps-Konzept einbetten.

4. Habe ich die Risikoliste der OWASP für KI durchgearbeitet?

Und wichtiger: Kann ich auf die wahrscheinlichsten Bedrohungen für mein Szenario reagieren?

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Auf der OWASP-Liste befinden sich viele „alte Bekannte“, wie zum Beispiel unsicheres Output Handling, Denial of Service, Schwachstellen in der Software-Lieferkette und übermäßige Berechtigungen; die auch bei dem Einsatz von KI relevant sind. Aber es gibt auch neue Akteure mit hohem Schadenspotenzial:

  • 1. Prompt Injection
  • 2. Poisoning von Trainingsdatensätzen
  • 3. Offenlegung sensibler Informationen
  • 4. Unsicheres Plug-in-Design
  • 5. Übervertrauen / Überhöhte Zuversicht
  • 6. Modell-Diebstahl

Alle Details können Interessierte auf der OWASP-Seite zu LLM-Bedrohungen nachlesen.

5. Wenn ich ein LLM mit Prompt Engineering oder Feintuning einsetze, habe ich mögliche Probleme berücksichtigt?

Diese Frage stellt sich insbesondere hinsichtlich ...

  • 1. ... nicht-deterministischer Antworten
  • 2. ... situationsbedingter Verzerrung (Bias)
  • 3. … großer Bilder (Überschneidung von Wissens- und/oder Geschäftsbereichen)

Eine zusammenfassende, gute, allgemeine Frage ist: Kann meine Lösung ihrem Zielpublikum schaden?

Wenn ich Verhinderungsstrategien und Filter einsetze, sollte ich prüfen, ob diese den bekannten „Low-Resource-Language“-Angriffen und anderen KI-Jailbreaks widerstehen. Ist mein Anwendungsfeld ggf. so kritisch, dass ich „Out-of-Distribution“-Erkennung einsetzen sollte?

6. Ist mein Technologie-Stack durch Dritte kompromittiert?

Insbesondere KI-Plug-ins von Drittanbietern bergen Risiken. So können ChatGPT-Plug-ins sensible Geschäftsdaten stehlen oder manipulieren, auch wenn der Plattformbetreiber selbst vertrauenswürdig ist.

Neben der Kerntechnologie müssen wir alle zusätzlichen Tools, APIs und Module hinsichtlich Lizenz, Daten-Handling und möglicher Angriffspunkte – vom Drittanbieter selbst oder von außen – überprüfen. Mögliche Risiken sind:

  • Der Diebstahl klassifizierter Geschäftsdaten
  • Diebstahl des Chat-Verlaufs mit kritischen Absichten/Plänen/Strategien
  • Remote-Code-Ausführung auf dem Anwenderrechner
  • Künstlich ausgelöste Halluzinationen, die gerne zur Installation von Hintertüren verwendet werden

7. Wie überprüfe ich eine konstante Dienstgüte (Quality of Service) über die Zeit?

Forscher der Stanford University und der UC Berkeley haben herausgefunden, dass LLMs Demenz-artige Effekte aufweisen können. Dies gilt insbesondere, aber nicht ausschließlich, für Systeme, die kontinuierlich lernen. Habe ich kontinuierliche Qualitätsprüfungen implementiert, die mich warnen, bevor das System versagt?

8. Entsprechen meine Laborwerte und KPIs der Realität?

Unter Laborbedingungen arbeiten LLMs oft ausgezeichnet und mitunter sogar besser als Menschen. In der Praxis aber produzieren sie durchaus fragwürdige Fehler. Mögliche Gründe sind unzureichende oder sogar falsche Testaufgaben und überholte Messverfahren. Ein gefährliches Terrain.

Eine bereits bewährte Strategie kann dagegen halten: Ich muss die KI kontinuierlich mit meinen Anwendern testen. (Ja, wieder dieses „Agile-Ding“, aber es funktioniert.)

9. Sich weiterentwickelnde KI-Modelle benötigen stets frische Daten von echten Menschen

Verschiedene Automatisierungstechniken, die bei dem Pre-Training und Feintuning von Modellen genutzt werden, nutzen selbst GenAI-basierte Verfahren. Hierbei muss ich mich fragen, ob die Gefahr besteht, dass ich durch diese Hyperautomatisierung Demenz-Effekte fördere. Wo ist es notwendig, Feedback von echten Personen in meine Datenbasis einzubeziehen?

10. Hängt mein Anwendungsfall von aktuellen Ereignissen ab?

Hängt die Servicequalität direkt von der Aktualität des Pre-Trainings und Feintunings ab? Erfüllt meine Lösung auch morgen noch ihre KPIs und habe ich Strategien für den Fall, dass es nicht so ist? Gibt es diesbezüglich versteckte Kosten bei der Wartung?

Die Umstände stellen heute vor allem das Feintuning von spezialisierten Modellen in Frage. Ich sollte ermitteln, ob RAG-Anbindungen für meine Lösung ausreichend Genauigkeit erzielen, weil diese einfacher an neue Versionen oder alternative Basis-LLMs gekoppelt werden können.

11. Habe ich Abhängigkeiten minimiert?

Natürlich ist auch dies eine bekannte Herausforderung. Aber in einer Zeit, in der die Welt extrem viel Geld in generative KI investiert, kommt dieser Frage eine neue Bedeutung zu. Denn eines ist sicher: Die Investoren wollen ihr Geld zurück – und wir, die User, sollen die Rechnung begleichen.

Plattform-Anbieter und Berater agieren strategisch, wenn es um Kundenbindung geht. Und der KI-Hype eignet sich hervorragend, um entsprechende Pläne noch erfolgreicher fortzuführen.

Welche Auswirkungen dies haben kann, wird deutlich, wenn wir uns die ersten Geschäftsentscheidungen von OpenAI und Microsoft ansehen. Neben den Lizenzgebühren, die immer gerne den größten Teil eines möglichen Lösungswertes unter Normalparametern ausmachen, gibt es weitere bindende und kostentreibende Effekte. Der Aufbau von Wissen, die Bereithaltung von Ressourcen, die Spezialisierung von Infrastruktur und die garantierte Bereitstellung eines Service sind dabei Faktoren.

Wird z.B. ein Modell aus dem Service entfernt, kann es passieren, dass Legacy-Anwendungen, die ich nicht aktualisieren möchte, komplett wegfallen. Ebenso können all die undokumentierten Verhaltensänderungen eines komplexen Modells meine Ergebnisse beeinflussen. Außerdem findet man sich in einer solch frühen Phase der Kommerzialisierung nicht selten in einem verschleierten A/B-Test wieder.

Open Source und „buy European“-getriebene Entscheidungen sind wunderbare Antworten für viele der aufgeführten Risiken und Probleme. Dazu ein aktuelles Zitat zur Prüfung des eigenen Standpunkts:

Stell dir vor, es gäbe so etwas wie Superkräfte, und nur OpenAI, Microsoft, Google, vielleicht noch die chinesische und die amerikanische Regierung und fünf andere Firmen, haben darüber die Kontrolle und können entscheiden, was damit gemacht wird.

Christoph Schuhmann, Mitbegründer und organisatorischer Leiter bei LAION

12. Bin ich mir des Ressourcenverbrauchs meines Modells bewusst?

Die Universität von Kalifornien schätzt in einem noch unveröffentlichten Papier, dass ChatGPT beispielsweise rund 500 Milliliter Wasser benötigt, um fünf bis 50 Prompts zu verarbeiten.

LLMs verbrauchen für Training und Betrieb gewaltige Energiemengen in hochkomprimierten Anlagen. Daraus entsteht Hitze, die mit gewaltigem Aufwand gekühlt werden will.

Erneut müssen wir Nutzen, Qualität und Aufwand gegeneinander abwägen. Gibt es klassische Algorithmen, die mir ausreichende Ergebnisse mit einem Bruchteil des ökologischen Fußabdrucks liefern?

Abschließende Bilanz

Im September 2023 führte der Bitkom e. V. – Branchenverband der deutschen Informations- und Telekommunikationsbranche – eine Studie mit 605 deutschen Unternehmen jeder Größe ab 20 Angestellten durch. 51 Prozent waren der Meinung, dass generative KI zwar spektakulär erscheint, aber wenig Nutzen für Unternehmen bringt.

Klingt nach einem ausgewogenem Stimmungsbild, oder? Was wäre, wenn die Kritiker Recht behalten und ich alles aufs falsche Pferd setze?

Zusätzlich zur obigen Checkliste, die dabei helfen kann, Risiken in einer frühen Phase zu lokalisieren und abzumildern, helfen vielleicht folgende Strategien und Leitlinien bei der Orientierung im Umgang mit GenAI:

  • Sich auf Probleme, Analysen und Werte fokussieren, – bevor eine Lösung in den Mittelpunkt rückt
  • Zunächst streng nutzer- und testgetrieben in Anwendungsfällen denken, – nicht an Tools, Plattformen und Skalierung
  • In hybriden Lösungen denken – KI als Zutat sehen, nicht als Superfood (erinnern Sie sich an Soylent Green?)
  • Open Source – und als Alternative: Open Source
  • Kauf europäisch – Werte, die über dem Kommerz stehen, kultivieren, Abhängigkeiten beherrschbar machen und funktionierende und ökologisch sinnvolle Lieferketten erhalten
  • Think Shrink! – Agile Strategien, kleine Schritte, viele Iterationen

* Über den Autor
Marcel Uetzels ist seit über 30 Jahren in vielen Rollen in der Softwareentwicklung tätig. Heute ist er als „Agile Innovation Solution Architect“ bei der Covestro Deutschland AG Teil eines cross-funktionalen Teams, welches Digitalisierungsideen prüft und umsetzt, sowie Gründer und Geschäftsführer der infovole GmbH, die seit 13 Jahren mobile Apps realisiert.

Bildquelle: gemeinfrei

(ID:49789458)