Innovative Prüftools für eine sichere und seriöse KI-Qualitätssicherung

Künstliche Intelligenz ist in aller Munde, nicht zuletzt wegen des aktuellen Hypes um ChatGPT. Die Möglichkeiten der KI sind beeindruckend, aber auch die Verantwortung, die mit der Nutzung einhergeht. Denn KI-Systeme werden immer häufiger eingesetzt, um wichtige und sensible Aufgaben zu erledigen. Doch wie kann man sicherstellen, dass die Ergebnisse dieser Systeme vertrauenswürdig und seriös sind?

KI-Anwendungen sind mächtige Werkzeuge, doch wie sieht es mit der Vertrauenswürdigkeit aus?

Foto: Panthermedia.net/biancoblue (YAYMicro)

Das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS stellt auf der Hannover Messe 2023 Lösungen für die KI-Qualitätssicherung vor: Verschiedene Prüftools und Verfahren, mit denen KI-Systeme systematisch auf Schwachstellen untersucht und gegen KI-Risiken abgesichert werden können. Diese Tools unterstützen Entwickler und Prüfinstitute dabei, die Qualität von KI-Systemen systematisch zu evaluieren und somit ihre Vertrauenswürdigkeit sicherzustellen. Denn obwohl KI-Systeme wie ChatGPT auf riesigen Datenmengen basieren und nur die wahrscheinlichste Antwort auf eine Frage berechnen, müssen ihre Ergebnisse stets auf ihre Richtigkeit überprüft werden. Die Qualitätssicherung und Kontrolle von KI-Systemen wird somit immer wichtiger, um ihre Verlässlichkeit und Vertrauenswürdigkeit zu gewährleisten.

KI und seine Vertrauenswürdigkeit

Dank der beeindruckenden neuen KI-Anwendung ChatGPT von OpenAI ist künstliche Intelligenz in aller Munde. Der Chatbot wurde mit Daten und Texten aus dem ganzen Internet trainiert und liefert Antworten auf Fragen, die sich von Menschen erstellten Texten nur schwer bis gar nicht unterscheiden lassen. Kein Wunder also, dass das KI-System immer interessanter für Unternehmen wird. Von der Automatisierung der Bearbeitung von Kundenanfragen über das Marketing bis hin zur Generierung von Medieninhalten – die Anwendungsmöglichkeiten sind vielfältig.

Top Stellenangebote

Zur Jobbörse

Es ist erstaunlich, wie reif die KI-Technologie mittlerweile geworden ist. Die mediale Omnipräsenz von ChatGPT ist ein weiterer Beweis dafür, dass die Entwicklung von künstlicher Intelligenz in großen Schritten voranschreitet. Doch mit der zunehmenden Anwendung von KI-Systemen in Unternehmen stellt sich auch die Frage nach ihrer Verlässlichkeit und Vertrauenswürdigkeit. Es bleibt spannend zu sehen, wie Unternehmen diese Herausforderung angehen und welche weiteren Fortschritte in der KI-Entwicklung erzielt werden können.

Mangelnde Transparenz ein Kritikpunkt

Obwohl die neue KI-Anwendung ChatGPT von OpenAI für viel Aufsehen gesorgt hat, gibt es auch kritische Stimmen. Insbesondere wird die fehlende Transparenz bemängelt, zum Beispiel darüber, aus welchen Quellen der Chatbot seine Antworten generiert. Es ist offensichtlich, dass die Vorhersagen auf der Qualität der Input-Daten basieren und dass die Güte von KI-Anwendungen systematisch geprüft werden sollte. Insbesondere in sensiblen Anwendungsbereichen wie der medizinischen Diagnostik, dem HR-Management, dem Finanzwesen, der Justiz oder in sicherheitskritischen Bereichen müssen KI-Systeme absolut zuverlässige Ergebnisse liefern können.

Aus diesem Grund hat die Europäische Union den sogenannten AI Act entwickelt, einen Entwurf zur Regulierung von KI-Systemen. Dieser stuft die genannten Beispiele als Hochrisiko-Kategorie ein und sieht für sie sogar verpflichtende Prüfungen vor. Dr. Maximilian Poretschkin, Leiter KI-Absicherung und -Zertifizierung am Fraunhofer IAIS in Sankt Augustin, betont: „Unternehmen, die Hochrisiko-KI-Anwendungen entwickeln oder einsetzen, müssen sich spätestens jetzt dringend mit der Qualitätssicherung ihrer Anwendungen auseinandersetzen.“ Es ist klar, dass die Prüfung der Qualität von KI-Systemen von entscheidender Bedeutung ist, insbesondere in Anwendungsbereichen, die eine hohe Zuverlässigkeit erfordern.

Prüfwerkzeuge und Verfahren sollen KI untersuchen

Ein Team unter der Leitung von Dr. Maximilian Poretschkin entwickelt derzeit Prüfwerkzeuge und Verfahren, um die Verlässlichkeit, Fairness, Robustheit, Transparenz und Datenschutz von KI-Anwendungen zu untersuchen und zu bewerten. Die Tools sind modular und können in ein Software-Framework integriert werden, was ihre Anwendung noch einfacher macht.

Das NRW-Flagship-Projekt ZERTIFIZIERTE KI unterstützt die Entwicklung dieser Prototypen, indem es Mittel vom Ministerium für Wirtschaft, Innovation, Digitalisierung und Energie des Landes Nordrhein-Westfalen bereitstellt. Die zugrunde liegenden Prüfkriterien basieren auf dem KI-Prüfkatalog, einem Leitfaden, den die Forschenden des Fraunhofer IAIS im Jahr 2021 veröffentlicht haben. Dieser Katalog bietet ein strukturiertes Vorgehen für die Praxis und ist eine wertvolle Grundlage für die Entwicklung der Prüfwerkzeuge.

Die Arbeit dieses Teams ist von großer Bedeutung, da es entscheidend ist, die Qualität und Zuverlässigkeit von KI-Anwendungen sicherzustellen, insbesondere in sensiblen Anwendungsbereichen. Die Entwicklung dieser Prüfwerkzeuge ist ein wichtiger Schritt zur Gewährleistung der Vertrauenswürdigkeit von KI-Systemen und zur Unterstützung von Unternehmen bei der sicheren und verantwortungsvollen Nutzung dieser Technologie.

Neuronale Netze auf ihre Schwachstellen untersuchen

KI-Anwendungen unterscheiden sich oft deutlich von herkömmlicher Software, da sie auf neuronalen Netzen basieren und nicht regelbasiert programmiert sind. Dies erschwert das systematische Durchtesten ihrer Funktionalität und die Bewertung ihrer Qualität.

Um dieser Herausforderung zu begegnen, hat das Fraunhofer IAIS das Werkzeug „ScrutinAI“ entwickelt. Mit diesem können Prüferinnen und Prüfer systematisch nach Schwachstellen von neuronalen Netzen suchen und somit die Qualität von KI-Anwendungen testen. Dies ist besonders wichtig in Anwendungsbereichen wie der medizinischen Diagnostik, in denen KI-Anwendungen zuverlässige Ergebnisse liefern müssen.

Ein konkretes Beispiel hierfür ist eine KI-Anwendung, die Anomalien und Krankheiten auf CT-Bildern erkennt. Die Analyse mit „ScrutinAI“ hilft Prüferinnen und Prüfern zu beurteilen, ob die KI-Anwendung alle Arten von Anomalien gleich gut erkennt oder ob es Unterschiede gibt. Dies ermöglicht eine gezielte Verbesserung der Anwendung und eine optimierte Verwendung in ihrem vorgesehenen Einsatzkontext.

Nicht nur Prüferinnen und Prüfer, sondern auch Entwicklerinnen und Entwickler können von diesem Werkzeug profitieren. Es ermöglicht ihnen, Unzulänglichkeiten ihrer KI-Systeme frühzeitig zu erkennen und entsprechende Verbesserungsmaßnahmen zu ergreifen, wie zum Beispiel die Anreicherung der Trainingsdaten um spezifische Beispiele. Insgesamt ist „ScrutinAI“ ein wertvolles Werkzeug für die Entwicklung und Prüfung von KI-Anwendungen, um ihre Vertrauenswürdigkeit und Qualität sicherzustellen.

Das Tool ScrutinAI ermöglicht es, Fehler in KI-Modellen oder Trainingsdaten aufzudecken und die Ursachen dafür zu analysieren.

Foto: Fraunhofer IAIS

Viele Anwendungen für Scrutin AI denkbar

Das oben beschriebene Beispiel zeigt, wie das Werkzeug „ScrutinAI“ des Fraunhofer IAIS genutzt werden kann, um die Qualität und Vertrauenswürdigkeit von KI-Anwendungen zu verbessern. Doch die Anwendungsmöglichkeiten sind vielfältig und reichen von der medizinischen Diagnostik bis hin zu sicherheitskritischen Bauteilen.

Wenn eine KI-Anwendung beispielsweise Schwachstellen und Materialfehler in Bauteilen erkennen soll, müssen Prüferinnen und Prüfer herausfinden, ob alle Schwachstellen gleich gut erkannt werden oder ob es Bereiche gibt, in denen die Leistungsfähigkeit der Anwendung unzureichend ist. Poretschkin betont: „Es geht immer darum, Unzulänglichkeiten im neuronalen Netz zu erkennen, wenn auch in unterschiedlichen Kontexten.“

Dies verdeutlicht, wie wichtig es ist, KI-Anwendungen nicht nur auf ihre Funktionalität, sondern auch auf ihre Vertrauenswürdigkeit zu prüfen. Die Nutzung von „ScrutinAI“ kann dazu beitragen, Unzulänglichkeiten frühzeitig zu erkennen und gezielt zu beheben, um die Qualität und Zuverlässigkeit von KI-Systemen zu verbessern.

Situationsabhängige Güteeinschätzung

Das Fraunhofer IAIS hat eine Methode namens „uncertAInty“ entwickelt und in das Framework integriert, um neuronale Netze mit einer situationsabhängigen Güteeinschätzung auszustatten. Dadurch können KI-Systeme ihre eigene Sicherheit bezüglich der gemachten Vorhersage bewerten. Konkret geht es darum, wie stark man der Entscheidung des Systems vertrauen kann oder ob bestimmte Fallback-Mechanismen aktiviert werden müssen bzw. ein Mensch die finale Entscheidung treffen muss.

Poretschkin betont: „Bei hochautomatisierten KI-Entscheidungen ist es wichtig beurteilen zu können, wie sicher sich eine KI mit ihrem Ergebnis ist. Konkret muss etwa ein autonomes Fahrzeug Objekte und Menschen in seiner Umgebung zuverlässig erkennen können, damit es angemessen darauf reagieren kann. Die Unsicherheitsbewertung hilft hierbei zu messen, wie stark man der Entscheidung des Systems vertrauen kann oder ob bestimmte Fallback-Mechanismen aktiviert werden müssen bzw. ein Mensch die finale Entscheidung treffen muss“

Auch interessant:

Künstliche Intelligenz

ChatGPT vs. Datenschutz: Kann der Chatbot auch in Deutschland verboten werden?

KI-ANWENDUNGEN

Künstliche Intelligenz: Diese 15 KI-Tools sollten Sie kennen

Entwicklung eines Sprachmodells

ChatGPT: Wie konnte das Sprachmodell so gut werden?

Die Methode trägt dazu bei, die Vertrauenswürdigkeit und Sicherheit von KI-Systemen in sensiblen Einsatzbereichen wie der medizinischen Diagnostik oder dem autonomen Fahren zu erhöhen.

KI-Modelle miteinander vergleichen

Ein weiteres von Fraunhofer IAIS entwickeltes Tool heißt „Benchmarking“. Mit ihm lässt sich untersuchen, welches KI-Modell sich am besten für eine bestimmte Aufgabe eignet. Angesichts der Fülle an neuen KI-Anwendungen, die Unternehmen in ihre Prozesse integrieren können, ist Benchmarking ein wichtiges Werkzeug zur Auswahl des passenden Modells.

Das Tool bietet auch eine Funktionalität, um die Fairness von Trainingsdatensätzen zu messen. Insbesondere in der HR-Branche ist dies entscheidend, wenn es um KI-Anwendungen geht, die bei der Auswahl neuer Mitarbeiterinnen und Mitarbeiter unterstützen. Eine ausgewogene und statistisch repräsentative Schulung ist hier von großer Bedeutung, um eine Benachteiligung von Personengruppen zu vermeiden und die Chancengleichheit zu gewährleisten.

Poretschkin betont die Bedeutung des Benchmarking-Werkzeugs: „Es gibt eine Flut neuer KI-Anwendungen, die Unternehmen in ihre Prozesse integrieren können. Benchmarking hilft bei der geeigneten Auswahl.“ Die Funktionalitäten des Tools ermöglichen es, KI-Systeme optimal an den vorgesehenen Einsatzkontext anzupassen und ihre Vertrauenswürdigkeit zu erhöhen.

Auf der Hannover Messe am Fraunhofer-Gemeinschaftsstand in Halle 16, Stand A12 zeigt das Team des Fraunhofer IAIS anhand eines interaktiven Demonstrators aus dem medizinischen Bereich, wie eine KI-Anwendung mithilfe der Prüfwerkzeuge systematisch auf Qualität untersucht werden kann. Darüber hinaus erfahren Interessierte, wie eine Prüfung von KI in Unternehmen konkret erfolgen kann.

Ein Beitrag von:

Dominik Hochwarth

Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.