TECXIPIOS COMPUTER VISION SOFTWARE LÖSUNGEN

COMPUTER VISION ALGORITHMEN ERSETZEN AUFWENDIGE MANUELLE PROZESSE

Computer Vision ist ein breites, interdisziplinäres Feld, das sich mit der Extraktion von Information aus digitalen Bildern oder Bildsequenzen, beispielsweise Videos, befasst. Von Interesse kann hierbei Information verschiedener Art sein. Sie reicht von einer rein technischen Ebene bis hin zur Erfassung der menschlichen visuellen Wahrnehmung in einem allgemeineren Sinne.

ENGINEERING- vs. MACHINE-LEARNING-BASIERENDE ANSÄTZE

Computer Vision kann in engineering- und machine-learning-basierende Ansätze unterteilt werden. Auch wenn die Grenzen hier fließend sind und eine strikte Unterscheidung nicht möglich ist, so werden engineering-basierende Ansätze in der Regel als eine Verarbeitungskette mit – nicht notwendigerweise allen – folgenden Schritten entworfen:

ERSTELLEN VON DIGITALEN FINGERPRINTS

Bildvorverarbeitung (z. B. Tiefpass- und Hochpassfilterung)
Segmentierung (z.B. Schwellenwertbildung, Farbmodelle)
Feature-(Merkmale/Muster) Erkennung (z. B. Kanten, Ecken, Blobs)

ABGLEICHEN

VON

FINGERPRINTS

4. Messung oder Mustervergleich
5. Ergebnisnachbearbeitung (z. B. Filtern von Ausreißern,
Konsistenzprüfungen, Verfeinerung)

VISUELLE INHALTE SUCHEN MIT ENGINEERING-BASIERENDEN ANSÄTZEN

Die meisten Anwendungen von Computer-Vision-Technologien erfordern Messungen und/oder sogenannte Mustervergleiche. Gegen Ende des letzten Jahrtausends wurden die Extraktion und das Matching lokaler Merkmale zum Zweck der Mustererkennung populär, wobei die SIFT-Merkmale (Scale-Invariant Feature Transform) als Meilenstein zu nennen sind.

SUCHE VISUELLER INHALTE MITHILFE LOKALER MERKMALE

Gemäß der oben skizzierten Verarbeitungskette werden solche lokalen Merkmale in den Schritten 1 und 3 extrahiert und in den Schritten 4 und 5 abgeglichen; Schritt 2 wird normalerweise nicht für die lokale Merkmalsextraktion angewendet. Die in den Schritten 1 bis 3 erzeugte Information wird als digitaler Fingerabdruck eines Bildes bezeichnet. Der Ort und andere geometrische Informationen solcher Merkmale, wie Drehung (Rotation), Verschiebung (Translation) und Skalierung, werden üblicherweise als Keypoints bezeichnet und mittels eines sogenannten Keypoint-Detektors bestimmt. Der visuelle Bildinhalt, der zu einem Keypoint gehört, wird in der Regel als Merkmalsvektor repräsentiert und üblicherweise als Deskriptor bezeichnet. Zur Durchführung von Schritt 5 werden häufig der RANSAC-Algorithmus und andere Konsistenzprüfungen angewendet.

Ein Mustervergleich basierend auf solchen lokalen Merkmalen wird üblicherweise dem Bereich der Computer Vision (vs. Machine Vision) zugeordnet. Grundsätzlich gibt es verschiedene Arten von Detektoren und Deskriptoren, die sich in Genauigkeit, Größe, Erfassungs- und Vergleichsgeschwindigkeit, und der Art von erfassbaren Strukturen, unterschieden. In jüngerer Zeit wurden viele binäre Deskriptoren entwickelt (proposed), die einen schnellen Vergleich von Mustern ermöglichen.

SUCHE VISUELLER INHALTE MITHILFE LOKALER UND GLOBALER MERKMALE

Lokale Merkmale werden hauptsächlich für die Objekterkennung und Pose estimation (Bestimmung der Lage) sowie für die Bilderfassung verwendet. Die Vorteile solcher Ansätze bestehen darin, dass sie keine Bildsegmentierung erfordern (Schritt 2), was in realen Anwendungen oft problematisch ist, sowie naturgemäß auch partielle Okklusionen abdecken können. Auf der anderen Seite ist die Anwendbarkeit auf Bilder beschränkt, welche die Art von Merkmalen bieten, die von dem Schlüsselpunktdetektor erkannt werden können. In der Praxis trifft dies bei Weitem auch auf die meisten Fotografien und Videos zu, während Logos diese Merkmale normalerweise nicht aufweisen.

IMPLEMENTIERUNG IN TECXIPIOS COMPUTER VISION APIS

ERWEITERTE SUCHANFRAGEN

Die von uns entwickelten Merkmale sind der perfekte Kompromiss zwischen Effizienz und Qualität. Die Merkmale können schnell berechnet werden, weisen eine kompakte Größe auf und werden aufgrund von hoch optimierten Datenstrukturen in Hochgeschwindigkeit verglichen. Der Mustervergleich auf der Basis von lokalen Merkmalen kann als goldener Standard für die allgemeine Bild- und Videosuche angesehen werden, wird jedoch aufgrund seiner rechnerischen Komplexität oft nicht verwendet. Unsere optimierten Implementierungen ermöglichen es, dass wir diese Technologie zu überschaubaren Preisen anbieten können.

STANDARD SUCHANFRAGEN

Für Anwendungen, bei denen die Geschwindigkeit im Vordergrund steht und nicht alle Vorteile des Abgleichs auf der Basis lokaler Merkmalen erforderlich sind, werden Ansätze, die auf globalen Merkmalen basieren, verwendet. Global bedeutet hier, dass ein Bild nicht durch eine Menge von lokalen Merkmalen, sondern durch einen einzelnen globalen Deskriptor (global descriptor) dargestellt wird. Dies ermöglicht eine beträchtliche Beschleunigung des Merkmalsabgleichs zu Lasten der Robustheit gegenüber partiellen Okklusionen. Einfache globale Deskriptoren eignen sich ausschließlich für das Auffinden von mehr oder weniger exakten Duplikaten (Skalierung ausgenommen). Komplexere globale Deskriptoren werden hingegen auf Basis von einer Menge lokaler Merkmale berechnet, wodurch die meisten Eigenschaften lokaler Merkmale erhalten bleiben und zu einem gewissen Grad sogar die Identifizierung von partiellen Okklusionen ermöglicht wird.

ANWENDUNGSBEREICHE VON BILD- UND VIDEOSUCHEN

Die Computer-Vision-Technologie, die auf dem Abgleich lokaler Merkmale, wie oben beschrieben, ist äußerst effektiv, um Bilder oder Videos in großen Datenbanken zu identifizieren. Das ermöglicht eine umfangreiche Suche nach visuellen Dateien, wenn IDs, Metadaten oder weitere beschreibende Informationen fehlen, unvollständig, unzureichend oder unzuverlässig sind. Bis heute sind Bild- und Videoidentifikationsprozesse immer noch mit einem hohen Anteil an manuellen Arbeitsschritten verbunden. Der Einsatz von Software zur Erstellung und zum Abgleich von digitalen Fingerabdrücken beschleunigt diese Arbeitsprozesse erheblich. Wertvolle Zeit und Ressourcen können anderweitig eingesetzt und Fehlerraten manueller Prozessschritte ausgeschlossen werden.

Folgerichtig wird diese Art von Computer-Vision-Technologie in zunehmendem Maße in Bereichen wie der Medienidentifikation (z. B. Anti-Piracy-Maßnahmen), der Medienüberwachung (z. B. Ad-Tracking), Spam-/Upload-Filter, Qualitätskontrolle oder der Verwaltung großer Medienarchive implementiert.

TECXIPIOS COMPUTER VISION SOFTWARE ZUR ERSTELLUNG UND ZUM ABGLEICH VON DIGITALEN FINGERPRINTS

SKALIERBARE SUCHANFRAGEN IN VIDEODATENBANKEN

Mit der TECXIPIO Video Matching API erhalten Sie Zugang zu unserer skalierbaren Video-Fingerprinting- und Matching-Software. Erfahren Sie mehr über die Vorteile, Technologie, Funktionsweise und das Preismodell.

Mehr zur Video Matching API

AUTOMATISIERTE BILDSUCHEN

Vergleichen Sie visuellen Content mit der TECXIPIO Image Matching API. Entwickler können die API einfach in ihre Systeme und Softwarelösungen integrieren, um die Bildsuche zu automatisieren und so Duplikate oder stark veränderte Bilder einfach zu identifizieren.

Mehr zur Image Matching API

ERKENNUNG VON VISUELLEN INHALTEN MITHILFE VON COMPUTER VISION TECHNOLOGIEN

Weitere wichtige Bereiche der Computer Vision umfassen die Ermittlung (detection), sowie die Erkennung (recognition) von Gesichtern. Während die Aufgabe eines Gesichtsdetektors darin besteht, ein beliebiges (unbekanntes) Gesicht in einem Bild zu finden, identifiziert ein Gesichtserkenner (bekannte) Gesichter, beispielsweise Personen, was eine Klassifizierungsaufgabe ist. Üblicherweise arbeitet ein Gesichtserkenner auf den von einem Gesichtsdetektor erfassten Kandidaten. Die Klassifizierungsaufgabe eines Gesichtserkenners besteht darin, verschiedene Bilder einer bestimmten Person zu erkennen, trotz unterschiedlicher Lichtbedingungen, Pose und Aussehen.

Ein noch prägnanteres Beispiel für eine echte Klassifizierungsaufgabe ist die Erkennung eines bestimmten Tieres, z. B. eines Hundes. Die Aufgabe des Klassifikators besteht dann nicht nur darin, sich mit verschiedenen Erscheinungsformen desselben Tieres auseinanderzusetzen, sondern ein Verständnis von Hunden im Allgemeinen zu haben, damit er jede beliebige Hunderasse als Hund erkennt. Ein anderes häufiges Beispiel neben Tieren sind Möbel, wie Stühle, Tische usw.

KLASSIFIZIERUNGSAUFGABEN MIT TRAININGSDATEN

All diese Aufgaben haben gemeinsam, dass der Klassifikator verstehen muss, was die Gemeinsamkeiten innerhalb dieser Klasse sind, aber ebenso wichtig ist auch, was diese von anderen Erscheinungen abgrenzt. Am Beispiel eines Hundes versuchen engineering-basierende Ansätze, dies „bottom-up“ anzugehen, d. h., zunächst geeignete Low-Level-Merkmale zu extrahieren. Sie versuchen möglicherweise Beine, Kopf, Schwanz zu erkennen und prüfen diese dann auf geometrische Konsistenz. Im Gegensatz dazu lernen maschinelle Ansätze eine Repräsentation anhand einer großen Anzahl von Bildern eines Hundes (positive Beispiele), aber auch anhand einer großen Anzahl von Nicht-Hundebildern (negative Beispiele). Die Wahl der Trainingsdaten ist entscheidend für den resultierenden Klassifikator. Wenn beispielsweise ein System mit negativen Beispielen trainiert wurde, die nur Landschaftsbilder sind, d. h., es hat noch nie ein anderes Tier als einen Hund gesehen, wird es wahrscheinlich „denken“, dass eine Katze auch ein Hund ist. Das ist natürlich und wäre auch für einen menschlichen Lernenden der Fall.

VISUELLE WAHRNEHMUNG MIT DEEP CONVOLUTIONAL NEURAL NETS

In den letzten Jahren hat sich der Einsatz von Deep Convolutional Neural Networks (CNN), einem Lernansatz der Computer Vision, der als Deep Learning bezeichnet wird, stark verbreitet. Aufgrund der sogenannten Convolutional-Schichten und der heute verfügbaren Rechenleistung können komplexe Aufgaben der visuellen Wahrnehmung mit wesentlich höheren Erkennungsleistungen im Vergleich zu herkömmlichen künstlichen neuronalen Netzen gelöst werden. Diese Technologie ermöglicht die Erstellung leistungsfähiger Erkennungs- und neuerdings auch Lokalisierungssysteme, die beispielsweise zur automatischen Kennzeichnung von Bildern und Videos (Tagging) verwendet werden können.

ANSÄTZE DES MASCHINELLEN LERNENS ZUR HOCHSKALIERUNG VON BILDERN

Die Anwendungen von CNNs sind nicht auf Erkennungs- und Lokalisierungsaufgaben beschränkt, sondern können unter anderem auch zur Bildverbesserung und Hochskalierung verwendet werden. Im Gegensatz zu engineering-basierenden Ansätzen, die hauptsächlich auf Interpolation basieren, können maschinelle Lernverfahren zur Hochskalierung von Bildern Strukturen innerhalb des Bildes mit niedriger Auflösung „erraten“ und sie im hochskalierten Bild einfügen, was zu erheblich schärferen fotorealistischen Ergebnissen führt, während Interpolationstechniken zu unscharfen Ergebnissen führen.

BESONDERHEITEN VON CNNS

Während CNNs viele Probleme lösen können, die bis dahin unlösbar waren, ist es wichtig zu erwähnen, dass, obwohl diese Art von neuronalen Netzen und ihre Trainingsalgorithmen mathematisch gut beschrieben und vollständig verstanden werden, sie bis zu einem gewissen Grad eine Blackbox bleiben – eine Blackbox, die mit einer großen Anzahl an Trainingsdaten und einer Reihe von Trainingsparametern trainiert wird und so durch Erfahrung, aber auch zu einem gewissen Grad auf der Basis von Versuch und Irrtum, angelernt wird. Aufgrund dessen können sogar sehr beeindruckende Deep-Learning-Systeme, mit extrem hohen Richtig-Positiv- und extrem niedrigen Falsch-Positiv-Raten, immer noch erstaunliche Ergebnisse erzeugen.

SUCHEN SIE NACH EINER LÖSUNG ZUR HOCHSKALIERUNG VON BILDERN UND VIDEOS?

Unsere Teams arbeiten an verschiedenen Projekten, um visuelle Inhalte mittels maschineller Lernverfahren in Super-resolution-Formate umzuwandeln. Bitte kontaktieren Sie uns, wenn Sie an einer entsprechenden Softwarelösung interessiert sind.

Kontakt