Azure AI Bilderkennung und Algorithmen: Klassifizierung und Texterkennung

Einführung in Azure AI Services, Teil 5 Bildklassifizierung mit Azure AI Vision

15.05.2024 Von Stephan Augsten 5 min Lesedauer

Anbieter zum Thema

Wie die Gesichtserkennung mit Azure AI funktioniert, haben wir grundlegend betrachtet. Dieser Artikel vertieft das Thema auf die beteiligten Algorithmen und zeigt, wie Azure AI Vision Bilder klassifizieren oder Text im Bild erkennen kann.

Das Azure-Vision-SDK lädt insbesondere Entwickler und Entwicklerinnen ein, sich mit der Materie zu befassen.(Bild: Drilling / Microsoft) — Das Azure-Vision-SDK lädt insbesondere Entwickler und Entwicklerinnen ein, sich mit der Materie zu befassen.
(Bild: Drilling / Microsoft)

Um zu verstehen, wie Bilderkennung und Analyse mithilfe KI-gestützter Algorithmen funktionieren, sei noch einmal an ein paar Grundlagen der digitalen Bildverarbeitung erinnert. Für Computer ist ein Bild nichts anderes als ein numerisches Pixel-Array, wobei jedes Pixel Werte zwischen 0 (schwarz) und 255 (weiß) annehmen kann. Dabei definiert ein zweidimensionales Array praktisch ein Graustufenbild. Farbbilder dagegen sind multidimensional und bestehen aus drei (als „Kanäle“ bezeichnete) Ebenen, welche dann rote, grüne und blaue (RGB) Farbtöne darstellen.

Zu üblichen den Verfahren des Ausführens von Bildverarbeitungsaufgaben gehört das Anwenden von Filtern auf ein solches Array. Dadurch werden die Pixelwerte des Bildes geändert, um einen visuellen Effekt zu erzeugen. So ein Filter definiert sich dabei durch ein oder mehrere Arrays von Pixelwerten, auch als „NxN-Filterkerne“ bezeichnet, die dann über das Ausgangsbild „gefaltet“ werden.

Im Verlauf dieses Prozesses wird dann je nach Art des Filters z. B. eine gewichtete Summe für jeden NxN-Abschnitt berechnet und das Ergebnis einem neuen Bild zugeordnet. Ein solcher Prozess wird dann so oft wiederholt, bis der Filter über das gesamte Bild hinweg „zusammengedreht“ (gefaltet) ist. Beim Berechnen des neuen Werte-Arrays können sich einige der Werte außerhalb des Wertebereichs von 0 bis 255 Pixeln befinden und werden daher automatisch angepasst.

Filter, die sich wie beschrieben über das gesamte Bild ausdehnen, heißen in der digitalen Bildmanipulation auch „konvolutionale Filter“. Ein bekannter Filtertyp dieser Kategorien z. B. zum Betonen von Kanten ist beispielsweise der „Laplace-Filter“. Andere Filter-Arten sind beispielsweise geeignet zum Schärfen, Weichzeichnen oder Invertieren von Farben.

Die Anwendbarkeit von Effekten auf Bilder in der Bildverarbeitung ist zweifelsohne nützlich. Beim maschinellen Sehen geht es jedoch mehr darum, Bedeutungen zu erkennen, um Erkenntnisse aus Bilderinhalten zu gewinnen. Dazu bedarf es wiederrum des Einsatzes von Machine-Learning-Modellen, die über große Mengen bestehender Bilder dazu trainiert wurden, bestimmte „Merkmale“ zu erkennen. Ein sehr häufig anzutreffender Typ neuronaler Netze, der z. B. bei der Bildklassifizierung zum Einsatz kommt, ist ein so genanntes konvolutionales neuronales Netzwerk (Convolutional Neural Network, CNN).

Wie funktionieren konvolutionale neuronale Netzwerke?

CNNs nutzen zunächst Filter, die numerische Merkmalszuordnungen aus Bildern extrahieren. Erst danach werden die Merkmalswerte in ein Deep-Learning-Modell eingespielt, welches dann Vorhersagen für Bezeichnungen generiert. Geht es beispielsweise um eine Bildklassifizierung, könnte die Bezeichnung beispielsweise das dominierende Thema des Bildes sein („Was zeigt das Bild?“).

Im Verlauf des Trainingsprozesses eines CNN werden zuerst verschiedene Filterkerne unter Zuhilfenahme zufällig generierter Gewichtungswerte definiert. Mit Fortschreiten des Trainingsprozesses werden dann die Modellvorhersagen anhand bekannter Bezeichnungswerte ausgewertet und damit die Filtergewichte angepasst, was die Genauigkeit verbessert.

Das fertig trainierte Modell zur Bildklassifizierung verwendet dann jene Filtergewichte, die am besten Merkmale zur Identifizierung verschiedener Arten des zu klassifizierenden Objekttyps extrahieren können. Der Begriff „Convolution“ im CNN bezieht sich auf die mathematische Funktion der Faltung. Dabei handelt es sich um eine spezielle Art von linearer Operation, bei der zwei Funktionen multipliziert werden, um eine dritte Funktion zu erzeugen. Diese beschreibt, wie die Form einer Funktion durch die andere modifiziert wird

In einfachen Worten: Zwei Bilder, die als Matrizen dargestellt werden können, werden multipliziert, um eine Ausgabe zu erzeugen, die zur Extraktion von Merkmalen aus dem Bild verwendet wird.

Transformer

Seit vielen Jahren schon bilden solche CNN das Fundament für viele Lösungen für maschinelles Sehen, In diesem Kontext dienen sie oft zur Bildklassifizierung, kommen aber auch in komplexeren Modellen wie der Objekterkennung zum Einsatz. Allerdings hat sich in einer anderen KI-Disziplin eine andere Art neuronaler Netzarchitektur durchgesetzt.

In der linguistischen Datenverarbeitung (Natural Language Processing, NLP) kommt eine Methode zum Einsatz, die allgemein als „Transformer“ oder „Transformator“ bezeichnet wird. Transformer erlauben die Entwicklung anspruchsvoller Modelle für Sprache. Sie basieren auf der Verarbeitung riesiger Datenmengen in Form codierter Sprach-Token. Diese bilden sich aus einzelnen Wörtern oder ganzen Ausdrücken und lassen sich als vektorbasierte Einbettungen (Arrays numerischer Werte) darstellen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Jede Einbettung kann man sich als Darstellung einer Reihe von Dimensionen vorstellen, von denen jede ein semantisches Attribut des Tokens bildet. Dabei erstellen die Entwickler solcher Modelle Einbettungen derart, dass Token, die häufig im selben Kontext verwendet werden, dimensional „näher“ beieinander liegen, weil semantisch ähnlich Token an ähnlichen Positionen codiert sind. So ein semantisches Sprachmodell ermöglicht es, anspruchsvolle NLP-Lösungen für Textanalyse, Übersetzung, Sprachgenerierung und andere Aufgaben zu erstellen.

Da sich Transformer als sehr effizient beim Erstellen von Sprachmodellen erwiesen haben, kam in der KI-Forschung die Idee auf, den gleichen Ansatz für Bilddaten zu nutzen. Im Ergebnis führte dies zur Entwicklung multimodaler Modelle, bei denen das Modell mit einem großen Volumen von beschrifteten Bildern trainiert wird, allerdings ohne feste Bezeichnungen. Ein Bild-Encoder extrahiert dann auf Basis von Pixelwerten Merkmale aus Bildern und kombiniert sie mit Texteinbettungen, welche jedoch von einem Sprach-Encoder erstellt wurden.

Das allgemeine Modell kapselt dann Beziehungen zwischen Token-Einbettungen in natürlicher Sprache und Bildmerkmalen. Das Florence-Modell von Microsoft ist ein solches Modell. Es ist seit März letzten Jahres verfügbar.

Das Verknüpfen eine Azure-KI-Ressource mit dem passenden Studio, hier Vision Studio.(Bild: Drilling / Microsoft) — Das Verknüpfen eine Azure-KI-Ressource mit dem passenden Studio, hier Vision Studio.
(Bild: Drilling / Microsoft)

Nun wollen wir einige Modelle zum Analysieren von Bildern mit der Azure-KI ausprobieren. Azure AI Vision unterstützt mehrere Funktionen zur Bildanalyse, darunter das Extrahieren von Text aus Bildern mittels Texterkennung (OCR), das Generieren von Untertiteln und Beschreibungen anhand des erkannten Inhaltes von Bildern, Erkennung von Tausenden gängiger Objekte in Bildern oder das Markieren visueller Funktionen in Bildern. Wie schon bei den vorhergehenden Beispielen gilt es wieder, wahlweise eine Azure-Ressource von Typ „Azure KI Vision“ oder „Azure KI Services“ zu erstellen und mit dem Vision Studio zu verknüpfen.

Zahlreiche Modelle zur Image-Analyse im Vision Studio.(Bild: Drilling / Microsoft) — Zahlreiche Modelle zur Image-Analyse im Vision Studio.
(Bild: Drilling / Microsoft)

Navigieren wir dann im Vision Studio zum Tab „Image analysis“, finden wir zahlreiche Modelle und Beispiele. So generiert z. B. das Modell „Add dense caption to image“ Bildunterschriften auf Basis des erkannten Bildes. Achtung: Dieses Modell ist derzeit nur in einigen Regionen verfügbar, aber nicht in Deutschland.

Das Modell schlägt für einzelne Bereiche passenden Bezeichnungen vor.(Bild: Drilling / Microsoft) — Das Modell schlägt für einzelne Bereiche passenden Bezeichnungen vor.
(Bild: Drilling / Microsoft)

Dies lässt sich an einem der Beispielbilder ausprobieren: Das Modell liefert unter „Detected attributes“ eine Reihe von Vorschlägen, jede passende zu einem der links identifizierten Bereiche, die jeweils durch ein Rechteck gekennzeichnet sind. Markieren wir rechts eines der Attribute, wird der zugehörige Bereich links orange hervorgehoben.

Die optische Zeichenerkennung im Kontext der Bildanalyse.(Bild: Drilling / Microsoft) — Die optische Zeichenerkennung im Kontext der Bildanalyse.
(Bild: Drilling / Microsoft)

Ebenfalls interessant ist das Modell „Extract text from image“ im Tab „Optical character recognition“. Auch hier testen wir eines der mitgelieferten Beispiele und navigieren nach unten zu „Next steps“. Hier besteht beispielsweise wieder die Möglichkeit, das SDK auszuprobieren; Endpunkt und Schlüssel werden hier passenderweise gleich angezeigt.

(ID:49998257)