Bilderkennung mit KI: Wie funktioniert das?

Entdecken Sie die Geschichte und die technischen Grundlagen der KI-gestützten Bilderkennung – von den Anfängen bis zu modernen Anwendungen in Medizin, Sicherheit und Industrie.

Wie erkennt eine KI, ob auf dem Bild ein Rettungsring oder ein Donut abgebildet ist?

Foto: PantherMedia / elenabs

Künstliche Intelligenz und maschinelles Lernen sind heute zentrale Diskussionsthemen und werden in den kommenden Jahren nahezu alle wirtschaftlichen Aktivitäten grundlegend verändern. Eine besonders faszinierende Anwendung von KI ist die Fähigkeit von Maschinen, ähnlich wie das menschliche Gehirn, Bilder zu verarbeiten, zu analysieren und ihnen Bedeutung zuzuordnen: die Bilderkennung. Doch wie funktioniert sie ganz genau? Seit wann gibt es sie und wofür lässt sie sich verwenden? Hier kommen die wichtigsten Antworten rund um KI-gestützte Bilderkennung.

Kurzer Überblick über die Geschichte der Bilderkennung
- Offzieller Beginn der KI-basierten Bilderkennung
Grundlagen der KI und des maschinellen Lernens
Technische Grundlagen der Bilderkennung
So läuft die Bilderkennung durch KI ab
Anwendungsbeispiele für Bilderkennung durch KI
Herausforderungen und Grenzen der Bilderkennung durch KI

Kurzer Überblick über die Geschichte der Bilderkennung

Die Geschichte der Bilderkennung ist eng mit den Fortschritten in der Neurophysiologie und der Computerentwicklung verbunden. Die ersten wichtigen Schritte in diese Richtung wurden Ende der 1950er Jahre unternommen. Ein wichtiger Meilenstein war die Arbeit der Neurophysiologen David Hubel und Torsten Wiesel, die 1959 die Antworteigenschaften visueller Neuronen im Gehirn von Katzen untersuchten. Sie entdeckten, dass das Erkennen von Bildern mit der Verarbeitung einfacher Strukturen wie Kanten beginnt – ein Prinzip, das noch heute in der Deep-Learning-Technologie Anwendung findet.

Parallel dazu entwickelte Russell Kirsch den ersten digitalen Fotoscanner, der es ermöglichte, Bilder in ein binäres Format umzuwandeln, das von Maschinen verarbeitet werden konnte. Diese Erfindung legte den Grundstein für die moderne digitale Bildverarbeitung.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs

In den 1960er Jahren begann Lawrence Roberts mit der Entwicklung von Computer-Vision-Technologien, die dreidimensionale Informationen aus zweidimensionalen Bildern extrahieren konnten. Seine Arbeiten gelten als wegweisend für die heutigen Bilderkennungssysteme.

Offzieller Beginn der KI-basierten Bilderkennung

Ein weiteres wichtiges Ereignis war das „Summer Vision Project“ von Seymour Papert am MIT im Jahr 1966, das trotz seines Scheiterns als offizieller Beginn der KI-basierten Bilderkennung gilt. In den folgenden Jahrzehnten entwickelte sich die Disziplin kontinuierlich weiter, insbesondere durch die Arbeiten von David Marr in den 1980er Jahren, der das hierarchische Modell der Bildverarbeitung entwickelte, und von Kunihiko Fukushima, der das Neocognitron-Netzwerk, einen Vorläufer moderner neuronaler Netze, schuf.

Die Einführung von Imagenet durch Fei-Fei Li im Jahr 2007 und die darauf aufbauende Imagenet Large Scale Visual Recognition Challenge im Jahr 2010 führten schließlich zu großen Durchbrüchen in der Bilderkennung. Insbesondere Alexnet, ein gefaltetes neuronales Netz, das 2012 den Wettbewerb gewann, zeigte das enorme Potenzial dieser Technologie. Seither hat sich die Bilderkennung rasant weiterentwickelt und findet heute breite Anwendung, beispielsweise in sozialen Netzwerken zum automatischen Taggen von Fotos.

Grundlagen der KI und des maschinellen Lernens

Bevor wir uns eingehender mit der KI-gestützten Bilderkennung beschäftigen, hier erst einmal einige Grundlagen zur KI und dem maschinellen Lernen ganz allgemein:

Künstliche Intelligenz (KI) ist ein Teilgebiet der Informatik, das darauf abzielt, Maschinen und Computersysteme zu entwickeln, die in der Lage sind, Aufgaben auszuführen, die normalerweise menschliche Intelligenz erfordern. Dazu gehören unter anderem Problemlösung, Sprachverständnis, Lernen und Mustererkennung – beispielsweise Bilderkennung mit KI. Ein wichtiger Aspekt der KI ist die Fähigkeit, aus Erfahrungen zu lernen und sich an neue Situationen anzupassen. Dies wird oft durch den Einsatz von Algorithmen und Modellen erreicht, die Daten analysieren und daraus Schlussfolgerungen ziehen.

Maschinelles Lernen (ML) ist ein Bereich der KI, der sich mit der Entwicklung von Algorithmen befasst, die es Computern ermöglichen, aus Daten zu lernen und Vorhersagen oder Entscheidungen zu treffen, ohne explizit dafür programmiert zu sein. Der wesentliche Unterschied zwischen KI und ML besteht darin, dass die KI ein breiteres Feld umfasst, während ML sich gezielt auf das Lernen aus Daten konzentriert. ML-Modelle verbessern ihre Leistung durch die Verarbeitung großer Datenmengen und die Anpassung ihrer Parameter auf der Grundlage der analysierten Informationen.

Neuronale Netzwerke spielen eine zentrale Rolle im Bereich des maschinellen Lernens und sind inspiriert von der Funktionsweise des menschlichen Gehirns. Sie bestehen aus Schichten von Neuronen, die miteinander verbunden sind und Informationen verarbeiten. Ein neuronales Netzwerk setzt sich in der Regel aus einer Eingabeschicht, mehreren versteckten Schichten und einer Ausgabeschicht zusammen. Durch den Einsatz von verschiedenen Funktionen können neuronale Netzwerke nichtlineare Beziehungen in den Daten modellieren, was ihre Fähigkeit zur Lösung komplexer Probleme erheblich verbessert.

Technische Grundlagen der Bilderkennung

Ein populärer Typ von neuronalen Netzwerken sind die Convolutional Neural Networks (CNNs), die besonders effektiv bei der Bilderkennung mit KI und deren Verarbeitung sind. CNNs nutzen Faltungsschichten, um Merkmale aus Bildern zu extrahieren, was ihnen ermöglicht, Muster wie Kanten, Texturen und Formen zu erkennen. Diese Merkmale werden dann durch vollständig verbundene Schichten verarbeitet, um eine Bestimmung zu ermöglichen. Die Fähigkeit von CNNs, komplexe visuelle Daten zu analysieren und zu interpretieren, hat sie zu einer Schlüsseltechnologie im Bereich der Bilderkennung mit KI gemacht.

Auch interessant:

Objekte erkennen

Mit den Augen einer KI: Wie sehen Maschinen?

Künstliche Bewegtbilder

Sora von OpenAI – so mächtig ist die generative Text-to-Video-KI

Wichtig für das Training von CNNs sind die Trainingsdaten. Diese bestehen aus einer großen Menge von beschrifteten Bildern, die als Eingabe für das Netzwerk dienen. Während des Trainingsprozesses wird das Netzwerk mit diesen Bildern und den zugehörigen Labels gefüttert. Die Qualität und Quantität der Trainingsdaten sind entscheidend für die Leistung des Netzwerks. Um Überanpassungen (Overfitting) zu vermeiden und die Generalisierungsfähigkeit des Netzwerks zu erhöhen, ist es wichtig, eine vielfältige und umfassende Datensammlung zu verwenden.

Die Datenvorverarbeitung spielt eine wichtige Rolle. Dazu gehören die Normalisierung der Pixelwerte, um sie auf einen einheitlichen Bereich zu skalieren, die Größenanpassung der Bilder auf eine konsistente Dimension und die Anwendung von Datenaugmentationstechniken wie Rotationen, Spiegelungen und zufälligen Zuschnitten, um die Vielfalt der Trainingsdaten zu erhöhen.

Relevant ist zudem die Wahl zwischen überwachten und unüberwachten Lernmethoden. Beim überwachten Lernen, wie es bei den meisten CNN-Anwendungen der Fall ist, werden die Modelle mit beschrifteten Daten trainiert. Das ermöglicht eine direkte Fehlerkorrektur und eine gezielte Verbesserung der Modellleistung. Im Gegensatz dazu basiert unüberwachtes Lernen auf unbeschrifteten Daten, bei denen das Modell selbst Muster und Strukturen in den Daten finden muss. Während unüberwachtes Lernen weniger Datenvorbereitung erfordert und in Szenarien nützlich ist, in denen beschriftete Daten knapp sind, ist es oft schwieriger, die gleiche Präzision und Leistung wie beim überwachten Lernen zu erreichen.

So läuft die Bilderkennung durch KI ab

Die Bilderkennung durch Künstliche Intelligenz (KI) erfolgt in mehreren Schritten:

Datenaufbereitung: Die Datenaufbereitung beginnt mit der Sammlung einer großen Menge von Bilddaten, die für die jeweilige Aufgabe relevant sind. Diese Bilder müssen gekennzeichnet werden. Das kann manuell erfolgen oder durch automatisierte Tools. Anschließend werden die Bilder einheitlich skaliert. Datenaugmentationstechniken erhöhen die Vielfalt der Trainingsdaten und machen das Modell robuster.

Training des Modells: Der Trainingsprozess beginnt mit der Auswahl und Anpassung der Netzwerktopologie. Convolutional Neural Networks (CNNs) werden häufig verwendet, da sie wie bereits erwähnt, besonders gut für die Verarbeitung von Bilddaten geeignet sind. Das Modell wird mit den vorbereiteten Trainingsdaten gefüttert und mittels Backpropagation und Optimierungsalgorithmen trainiert. Während des Trainings passt sich das Modell immer wieder an, um Fehler zu minimieren und die Genauigkeit zu erhöhen.

Validierung und Testen: Nach dem Training wird das Modell anhand eines separaten Validierungsdatensatzes bewertet, um die Leistung zu überprüfen und zu optimieren. Modellanpassungen können erforderlich sein, um die besten Ergebnisse zu erzielen. Anschließend wird das Modell mit einem Testdatensatz getestet, der weder während des Trainings noch während der Validierung verwendet wurde. So soll die Generalisierungsfähigkeit der Bilderkennung durch KI bestätigt werden.

Einsatz und kontinuierliche Verbesserung: Sobald das Modell zufriedenstellende Ergebnisse liefert, wird es in der vorgesehenen Umgebung eingesetzt. Dies umfasst etwa die Integration in Anwendungen oder Systeme, die die Bilderkennung benötigt. Eine kontinuierliche Verbesserung des Modells ist weiterhin notwendig, um die Leistung aufrechtzuerhalten. Das geschieht durch regelmäßige Überwachung der Leistung, durch Sammlung neuer Daten und erneutes Training des Modells.

Anwendungsbeispiele für Bilderkennung durch KI

Gesichtserkennung: In sozialen Netzwerken wird eine Gesichtserkennung verwendet, um automatisch Personen auf Fotos zu identifizieren und sie in Bildern zu taggen. Dies vereinfacht die Organisation und Suche nach Bildern von bestimmten Personen. Weitere Einsatzmöglichkeiten von Gesichtserkennung sind Sicherheitskontrollen. Die Bilderkennung durch KI hilft bei der Identitätsprüfung an Flughäfen oder bei Zugangskontrollen in gesicherten Bereichen. Auch die Polizei nutzt bei Fahndungen mitunter KI.
Objekterkennung: Beispielsweise wird in der Automobilindustrie die Objekterkennung genutzt, um autonome Fahrzeuge zu unterstützen. Sie hilft dabei, Objekte wie Fußgänger, andere Fahrzeuge und Verkehrszeichen zu klassifizieren, was für die Navigation und Sicherheitsfunktionen entscheidend ist. Im Einzelhandel oder in der Logistik ermöglicht die Bilderkennung mit KI die automatische Erfassung und Verwaltung von Lagerbeständen durch visuelle Überprüfung in Regalen oder Lagerräumen. Die Landwirtschaft nutzt die Objekterkennung zur Überwachung und Identifizierung von Pflanzenschädlingen oder Reifegraden von Feldfrüchten durch Drohnen mit eingebauten Kameras.
Medizinische Bildanalyse: In der medizinischen Bilderkennung wird KI beispielsweise zur Tumoridentifizierung verwendet. Bildgebende Verfahren wie MRT- oder CT-Scans werden analysiert, um Anomalien oder Tumore frühzeitig zu erkennen und die Diagnose und Behandlung zu unterstützen. Die medizinische Bilderkennung mit KI hilft zudem bei der Diagnose der diabetischen Retinopathie oder anderen Augenerkrankungen durch Analyse von Netzhautbildern. In der Analyse von Röntgenaufnahmen wird sie zur Identifikation von Knochenbrüchen oder -anomalien eingesetzt.
Sicherheit und Überwachung: Durch CCTV-Kameras wird KI-gesteuerte Bilderkennung eingesetzt, um ungewöhnliche Aktivitäten oder verdächtige Personen in Überwachungsaufnahmen zu identifizieren. Dies verbessert die Sicherheitsmaßnahmen und hilft bei der präventiven Überwachung. Eine automatische Nummernschilderkennung zur Überwachung von Verkehr und zur Verhinderung von Verkehrsverstößen ist ebenso möglich. Sie wird beispielsweise auch in Parkhäusern genutzt.

Herausforderungen und Grenzen der Bilderkennung durch KI

Die Bilderkennung durch KI steht vor mehreren Herausforderungen und Grenzen, die ihre Effektivität und Anwendbarkeit beeinträchtigen können. Eine davon ist die Notwendigkeit großer und diverser Datensätze. Um ein KI-Modell für die Bilderkennung erfolgreich zu trainieren, benötigt man umfassende und vielfältige Bilddaten, die die gesamte Bandbreite an Variationen und Szenarien abdecken, die im realen Einsatz vorkommen könnten. Dazu zählen unterschiedliche Lichtverhältnisse, Perspektiven, Bildqualitäten und -größen sowie verschiedene Variationen von Objekten oder Gesichtern. Fehlen diese Daten oder sind sie nicht repräsentativ, kann das Modell in der Erkennung versagen.

Weitere Probleme sind Bias und Fairness in den Daten. Wenn die Trainingsdaten nicht ausgewogen sind oder bestimmte Gruppen unterrepräsentiert sind, kann das Modell Vorurteile oder diskriminierende Muster lernen. Bias in den Daten kann unbeabsichtigt verstärkt werden und dazu führen, dass KI-Systeme unfaire oder ungenaue Entscheidungen treffen, was insbesondere in sensiblen Bereichen wie der Gesichtserkennung oder der medizinischen Bildanalyse problematisch ist.

Zusätzlich gibt es technische Herausforderungen wie Rechenleistung und Speicherkapazität. Das Training komplexer Modelle, insbesondere tiefer neuronaler Netzwerke wie CNNs, erfordert erhebliche Rechenressourcen. Hochleistungsfähige Grafikkarten oder spezialisierte Hardware sind notwendig, um die Berechnungen effizient durchzuführen. Das verursacht hohe Kosten und ist für viele Organisationen eine Hürde, Bilderkennung durch KI nutzen zu können. Der Speicherbedarf für große Datensätze und Modelle ist ebenfalls erheblich, was weitere Kosten für die Infrastruktur mit sich bringt.

Ein Beitrag von:

Dominik Hochwarth

Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.
Julia Klinkusch

Julia Klinkusch ist seit 2008 selbstständige Journalistin und hat sich auf Wissenschafts- und Gesundheitsthemen spezialisiert. Seit 2010 gehört sie zum Team von Content Qualitäten. Ihre Themen: Klima, KI, Technik, Umwelt, Medizin/Medizintechnik.