nicht angemeldet
Gut im Blick
Software zum Finden von Bildinhalten
397
© istockphoto.com/scanrail —
Neue Such-, Filter- und Darstellungsverfahren für multimediale Daten ermöglichen dem Nutzer ein intuitives Browsen und Durchsuchen großer Video- und Fotoarchive.
Medien zu diesem Beitrag
-
Neue Such-, Filter- und Darstellungsverfahren für multimediale Daten ermöglichen dem Nutzer ein intuitives Browsen und Durchsuchen großer Video- und Fotoarchive.© istockphoto.com/scanrail
-
Neue Such-, Filter- und Darstellungsverfahren für multimediale Daten ermöglichen dem Nutzer ein intuitives Browsen und Durchsuchen großer Video- und Fotoarchive.© istockphoto.com/scanrail
Innovationsgrad
Marktreife2011
Sie ist umständlich und mitunter frustrierend: die Suche nach bestimmten Bildern oder einzelnen Szenen in einem Film. Zwar lassen sich mithilfe klassischer Tools Bildersammlungen mit Metadaten versehen oder einzelne Szenen verschlagworten, aber das muss in der Regel „händisch“ geschehen und ist entsprechend zeitaufwendig und fehleranfällig. Mithilfe spezieller Computerprogramme, die am Fraunhofer Heinrich-Herz-Institut entwickelt werden, kann das „Erkennen“ und Beschreiben von Bildinhalten künftig dem Computer überlassen werden.
Über 75 Milliarden JPG-Bilder sind derzeit im World Wide Web zu finden. Und bei jedem Privatanwender und jedem Unternehmen – so schätzen Experten – dürfte die Anzahl der lokal gespeicherten Digitalbilder in die Tausende beziehungsweise Zehntausende gehen. Das Anfertigen von Fotos ist mittlerweile fast kostenfrei, selbst der Speicherplatz auf einem normalen PC reicht problemlos aus, um die Fotosammlung jedes Jahr um mehrere Hundert Bilder zu erweitern. Seit Einführung der Digitalfotografie gilt deshalb für fast jedermann: Fotos machen ist nicht schwer, Fotos finden dagegen sehr. Das „Hauptproblem“ moderner Fotografie ist also längst nicht mehr das Produzieren, sondern das Archivieren. Der Markt bietet dafür zwar zahlreiche Tools, aber letztlich funktionieren sie alle nach einem vergleichbaren Prinzip: Bilder müssen durch die Eingabe von Begriffen verschlagwortet werden. Das geschieht in der Regel mithilfe von Metadaten, Stichworten, dem Dateinamen, einer textuellen Bildbeschreibung oder einem mit dem Bild verlinkten Fließtext. Dieses Vorgehen ist jedoch nicht nur zeitaufwendig, sondern auch ungenau. So ist beispielsweise die Auswahl der verwendeten Wörter in der Regel beliebig. Ein Strandfoto könnte einerseits mit den Begriffen „Strand“ oder „Sand“ kategorisiert werden, während im nächsten Urlaub als Schlagwort für ähnliche Aufnahmen schlicht „am Meer“ verwendet wird.
Das Fraunhofer Heinrich-Hertz-Institut HHI hat im Rahmen des Forschungsprogramms THESUS (Technologien für das Internet der Dienste) nun eine intelligente Technologie dafür entwickelt. Der „MediaExplorer“ ist in der Lage, Bildinhalte automatisch zu analysieren, um Bilder automatisch mit Schlagworten zu versehen und den Anwender bei seiner Archivierungsarbeit zu unterstützen. Das Programm arbeitet in drei Schritten: Erstens der Metadaten-Extraktion, zweitens einer Trainingsphase und schließlich der Klassifikation.
Zunächst sucht das System nach markanten Merkmalen, die geeignet sind, das Bild visuell zu beschreiben. Dazu gehören beispielsweise Kanten, Farben oder geometrische Formen. Für eine vom System zu erkennende Bildkategorie wie beispielsweise „Strand“ wird anschließend eine Anzahl von Trainingsbildern eingesetzt, die diese Bildkategorien repräsentieren und als Referenz für später zu erkennende Strandbilder fungieren. In einem zweiten Schritt wird die Maschine trainiert, die vorgegebenen Kategorien anhand spezieller Merkmale zu unterscheiden. Dazu gehören beispielsweise größere Flächen (gelblichen oder weißen) Sandes, eines blauen bis bläulichen Hintergrundes, an dem sich das Meer und der Himmel abzeichnen. Anschließend ist die Suchmaschine in der Lage, auch neue, dem System unbekannte Bilder zu analysieren und automatisch die gewünschten Bildannotationen zu erzeugen. Im Ergebnis sind alle Standbilder mit einer entsprechenden Kategorisierung gekennzeichnet.
Das System ist dabei so ausgelegt, dass es – nach einer generellen Trainingsphase –vom Nutzer nicht mehr zusätzlich trainiert werden muss, sondern auf (um im Beispiel zu bleiben) die Strandbilder unterschiedlichster Urlauber angewendet werden kann. Die „Treffergenauigkeit“ ist dabei je nach Kategorie sehr unterschiedlich. So wird beispielsweise ein abgelichteter Himmel zu 80 bis 90 Prozent erkannt, das Abbild eines Menschen zu circa 70 Prozent.
In naher Zukunft könnte das Programm dann ähnlich komfortabel arbeiten wie dies heute schon das „visuelle Inhaltsverzeichnis“ tut. Mithilfe dieses ebenfalls vom Fraunhofer Heinrich-Hertz-Institut und im Rahmen von THESEUS entwickelten Programms lassen sich Strukturen innerhalb von Videos automatisch erkennen. Ein Film kann auf diese Weise „eingelesen“ werden, um Interessenten wie beispielsweise Archivaren oder auch Privatpersonen, die bestimmte Sequenzen suchen, das Auffinden deutlich zu erleichtern. Denn im Ergebnis muss nun lediglich eine Art „Kapitelübersicht“ durchgesehen werden. Die einzelnen Kapitel beziehungsweise Unterkapitel erstellt das patentierte Softwaremodul automatisch und präsentiert dann jeweils ein „visuelles Inhaltsverzeichnis“ mit dem Beginn jeder neuen Sequenz. Auf diese Weise ist nicht nur eine vereinfachte Suche in den Videos möglich, der bildgenaue Zugriff auf unterschiedliche semantische Videosegmente ist auch die Grundlage für eine weitere Annotationen und die Archivierung von Videos. Die Funktionsweise des Softwaremoduls arbeitet dabei – ähnlich wie der MediaExplorer – auf Basis des „Erkennens“ der Bildinhalte. So werden beim „visuellen Inhaltsverzeichnis“ automatisch Metadaten erzeugt, mit deren Hilfe sich die Grenzen von Szenen, Shots und SubShots beschreiben lassen. Erkannt werden also nicht nur harte Schnitte, sondern auch weiche Übergänge wie Aus- und Einblendungen, Überblendungen und Wischblenden. Gesucht wird also nicht nur nach „Brüchen“ im Verlauf eines Films, wie sie durch Szenen beschrieben werden, sondern auch nach der Änderung beispielsweise der Perspektive, oder wenn eine neue Person den Raum betritt, in dem eine Szene spielt. Die Software arbeitet dabei erheblich schneller als in Echtzeit.
397 mal gelesen


Aktuelle Themen










Nach Oben
0 Kommentar(e)