Sie sind auf Seite 1von 14

Chancen und Mglichkeiten von Crowdsourcing beim Aufbau einer Content Based Image Retrieval Datenbank mit Hilfe

von Amazons Mechanical Turk


Christoph Singer

Abstract Um eine Bilddatenbank als Basis fr eine inhaltsbasierte Bildsuche aufzubauen ist es ntig, den Inhalt der Bilder in der Datenbank (oder Bildsammlung) in geeigneter Form zu beschreiben und dafr die in den Bildern sichtbaren Objekte zu markieren und zu benennen. Diese Beschreibung von Bildern kann noch nicht vollstndig automatisiert von Programmen erledigt werden. Sie erfordert in den meisten Fllen das manuelle Eingreifen durch Menschen. Mit der wachsenden Anzahl von Bildern wird dieser Prozess langwierig und kostenintensiv, wenn er durch Experten erledigt wird. Diesem Effekt kann durch den Einsatz vom sogenannten Crowdsourcing entgegengewirkt werden, indem die gesamte Annotationsarbeit in kleine Pakete sogenannte Minijobs zerlegt und diese auf eine grere Gruppe von Menschen verteilt wird. Diese Arbeiten lassen sich zum Beispiel mit der Plattform "Mechanical Turk" (www.mturk.com) von Amazon organisieren und realisieren. Durch die parallele Bearbeitung der Bilder entsteht ein groer Zeitvorteil. Ebenfalls werden die Kosten, welche durch die Datenerfassung entstehen, stark gesenkt, da die Minijobs nicht von Spezialisten sondern von interessierten Laien durchgefhrt werden. Die Datenerfassung durch Laien besitzt allerdings auch einen Nachteil: Eine mgliche Qualittsminderung der annotierten Daten. Diesem Effekt kann in sofern entgegengewirkt werden, in dem jedes Bild von mehreren Personen annotiert wird. Allerdings ist es beim Beschreiben der Bilder durch Laien notwendig, dass die Vorgaben klar definiert sind und dem Bearbeiter keine greren Freirume gelassen werden. Aus den ber allen Benutzern gesammelten Beschreibungsdaten lsst sich anschlieend eine Grundwahrheit bestimmen, welche den Inhalt eines Bildes mglichst gut beschreibt.

1 Einleitung
Computer sind nicht in der Lage den Inhalt eines Bildes automatisch zu erfassen und richtig zu deuten. Um eine inhaltsbasierte Bilddatenbank aufbauen zu knnen, ist es allerdings notwendig, den Inhalt der Bilder zu kennen, um danach suchen zu knnen. Das hat zur Folge, dass Bildinhalte weiterhin von Menschen in einer fr den Computer verstndlichen Form beschrieben werden mssen. Die textuelle Beschreibung der Bilder wird dann zusammen mit der Bilddatei in der Bilddatenbank gespeichert. Die Beschreibung der Bilder muss dabei sehr exakt und normiert erfolgen. Das heit zum Beispiel, dass fr bestimmte Objekte auch immer das selbe Wort (z.B. Auto, Kraftfahrzeug, KFZ) verwendet werden muss. Auerdem darf auch wirklich nur der Inhalt des Bildes beschrieben werden und nicht die persnliche Wahrnehmung oder Gefhle, welche man mit dem Bild eventuell verbindet. Das hat zur Folge, dass die Annotation (Beschreibung) der Bilder von Experten durchgefhrt werden muss. Sie sind darauf geschult die Grundwahrheit eines Bildes zu erfassen und zu beschreiben. Mit wachsender Anzahl von Bildern wird dieser Prozess allerdings sehr zeit- und kostenintensiv. Um einerseits eine groe Anzahl an Bildern in kurzer Zeit annotieren zu knnen und auf der anderen Seite die Kosten mglichst gering zu halten, kann man auf das Crowdsourcing-Verfahren zurckgreifen. Crowdsourcing bedeutet, dass eine Aufgabe in Arbeitspakete (auch Minijobs genannt) zerlegt wird, welche dann von verschiedenen Personen (meit Laien) parallel bearbeitet werden. Das wohl bekannteste Crowdsourcing Projekt ist die freie Enzyklopdie Wikipedia. Der Inhalt wird von mehreren Millionen Nutzern weltweit gepflegt und somit stets auf dem aktuellen Stand gehalten. Die definierten Minijobs kann man zum Beispiel ber die Internetplattform Mechanical Turk (www.mturk.com) von Amazon mit einer festgelegten Entlohnung anbieten. Um die Qualitt der Annotation dabei weiterhin gewhrleisten zu knnen, mssen verschiedene Punkte bercksichtigt werden, auf welche spter genauer eingegangen wird. Aus den einzelnen Annotationen lsst sich anschlieend die Grundwahrheit des Bildes berechnen. Um die Qualitt der gewonnen Daten feststellen zu knnen wurde ein Experiment durchgefhrt, bei welchem ein Bild von zehn verschiedenen Personen annotiert wurde. Die gesammelten Daten wurden anschlieend mit der Grundwahrheit des Bildes verglichen.

2 Vorteile von Crowdsourcing


Crowdsourcing beschreibt den Prozess eines Unternehmens eine Aufgabe, welche bisher von Angestellten erledigt wurde, an ein undefiniertes (und meist groes) Netzwerk in Form eines offenen Angebots auszugliedern. Durch das Verteilen der Arbeit auf eine grere Gruppe entstehen einige Vorteile gegenber der Bearbeitung durch eine oder wenige Personen. Zum einen wird dadurch die Zeit, welche es braucht eine Aufgabe zu erledigen drastisch gesenkt. Nimmt man an, dass die Annotation eines Bildes eine Minute dauert (nur textuelle Beschreibung, keine Objekte markieren) schafft eine einzelne Person im besten Fall 60 Bilder pro Stunde. Da die Datenmenge aber stets zunimmt und eine Bilddatenbank meist mehrere tausend Bilder beinhaltet, ist diese Menge durch einzelne Personen kaum mehr zu bewltigen. Somit dauert die Annotation von 10000 Bildern durch einen Experten bereits ber 166 Stunden. Durch die Verwendung des Crowdsourcing-Verfahrens wird die Arbeit in viele kleine Pakete aufgeteilt. Diese knnen dann weltweit und parallel von vielen Personen bearbeitet werden. Nehmen 100 Personen diesen Minijob an und annotieren jeweils 100 Bilder, ergibt das im Idealfall eine Gesamtbearbeitungsdauer von 2,5 Stunden. Bei der Rechnung wird davon ausgegangen, dass es sich bei den Bearbeitern um Laien handelt und sie somit nur 40 Bilder pro Stunde annotieren. Um die Qualitt der Annotation gewhrleisten zu knnen, wird davon ausgegangen, dass ein Bild von fnf verschiedenen Personen beschrieben wird. Somit errechnet sich eine Gesamtdauer von 12,5 Stunden fr die Annotation von 10000 Bildern. Ebenso wirkt sich der Einsatz von Crowdsourcing auf den finanziellen Aspekt bei der Annotation von Bildern aus. Bei einem Stundenlohn von 100 pro Stunde fr einen Annotationsexperten ergeben sich bei 10000 Bildern und 166 Stunden Arbeitszeit Gesamtkosten von 16600. Fr die Annotation von Bildern erhalten Laien meist zwischen 3 und 10 Cent (hier wird von 5 Cent ausgegangen). Da jedes Bild fnf mal beschrieben wird sieht die Rechnung wie folgt aus: 10000 Bilder * 5 * 5 Cent = 2500 Zeit und Kosten zusammengefasst ergibt folgende Tabelle:
Annotation durch Experten Zeit in Stunden Kosten in EUR 166 16600 Crowdsourcing 12,5 2500 Ersparnis in % 92,47 84,94

Zeit und Kosten fr die Annotation von 10000 Bildern

Die Tabelle veranschaulicht, welches Potential hinter der Verwendung von Crowdsourcing steckt. Desweiteren gibt es noch Dienste wie zum Beispiel LabelMe (http://labelme.csail.mit.edu/). Hier ist die Mitarbeit unentgeldlich und freiwillig. Im Gegenzug werden die gesammelten Daten jedem zur freien Verfgung gestellt.

Es lassen sich eigene Fotos einstellen, welche dann von Menschen weltweit annotiert werden. Somit fallen hierbei keinerlei Kosten an. Nhere Informationen zu LabelMe finden sich in der entsprechenden Seminararbeit.

Oberflche des Annotationsdienstes LabelMe

3 Mechanical Turk
Amazons Mechanical Turk (MTurk) ist eine Internetplattform um Arbeitgeber und Arbeitnehmer (auch Turkers genannt) zu verbinden. Bei den angebotenen Minijobs handelt es sich um sogenannte Human Intelligence Tasks (HITs). Diese knnen nicht automatisiert von Computern erledigt werden. Stattdessen erfordert ihre Bearbeitung menschliche Intelligenz. Dies umfasst zum Beispiel das Feststellen der Sinnhaftigkeit von Texten, Korrekturlesen, bersetzungsarbeiten, Erstellen eines Textes, Internetrecherche oder aber auch die Annotation von Bildern. Die Minijobs knnen entweder direkt ber ein Layoutprogramm auf der MTurkOberflche erstellt oder ber eine API angebunden werden. Beim Erstellen eines

HITs wird dessen Entlohnung und die Zeit, welche zur Bearbeitung bentigt werden darf, festgelegt. Die Annotation eines Bildes wird zum Beispiel meist mit einem Betrag zwischen 3 und 10 Cent entlohnt. Arbeitgeber haben ber die Plattform Zugriff auf eine groe Zahl an Arbeitnehmern. Da die Bearbeitung der HITs meist durch fachfremde Personen erfolgt, ist die Qualitt der abgelieferten Arbeit von Person zu Person unterschiedlich und nicht mit der von Experten zu vergleichen. Um diesem Effekt entgegenzuwirken empfiehlt es sich das selbe Bild von mehreren, verschiedenen Personen annotieren zu lassen. Aus den abgegebenen Bildbeschreibungen lsst sich anschliessend ein Mittelwert berechnen, welcher die Grundwahrheit des Bildes wiederspiegelt. Desweiteren kann man beim Erstellen eines Minijobs Kriterien festlegen, welche ein mglicher Bearbeiter erfllen muss. Es ist zum Beispiel empfehlenswert nur Turkers mit ber 95% erfolgreich abgeschlossenen HITs zuzulassen. Somit wird sichergestellt, dass nur Personen den Minijob annehmen knnen, die bisher fast ausschlielich zufriedenstellende Arbeiten abgeliefert haben. Desweiteren sollte man dem Bearbeiter so wenig Freiraum wie mglich bei der Beschreibung der Bilder gewhren. Dies kann durch eine intelligente Gestaltung der Benutzeroberflche erreicht werden.

4 Gestaltung und Beschreibung der Annotationsoberflche


Da es sich bei den Bearbeitern auf MTurk zum grten Teil um Laien handelt mssen einige Dinge bei der Gestaltung der Annotationsoberflche beachtet werden. Die Annotationsoberflche sollte leicht verstndlich und nicht zu berladen sein. Auf Felder zur freien Texteingabe sollte, wenn mglich, verzichtet werden. Stattdessen wird empfohlen Checkboxes und Radiobuttons mit vordefinierten Antwortmglichkeiten zu verwenden. Hierdurch wird die Auswertung der Antworten erleichtert und sichergestellt, dass nicht fr gleiche Objekte verschiedene Synonyme zur Beschreibung verwendet werden. Um dem Bearbeiter das Beschreiben des Bildes zu erleichtern sollte er das Bild ohne Scrollen beim Beantworten der Fragen sehen knnen. Da man fr die Annotation eines Bildes nur einen geringen Centbetrag erhlt, versuchen manche Arbeiter mit mglichst geringem Aufwand den Minijob zu erledigen. Das beudedet auch, dass dadurch falsche Aussagen entstehen knnen, nur um mglichst viele HITs in kurzer Zeit zu erledigen. Um dem entgegenzuwirken sollte darauf geachtet werden, dass die ernsthafte Bearbeitung eines HITs nicht viel mehr Aufwand erfordert, als den Minimalaufwand um einen Minijob abzuschliessen. Ausserdem sollte die Oberflche so gestaltet werden, dass es schwierig wird einen automatisierten Bot zum Bearbeiten des HITs zu schreiben. Dies kann zum Beispiel dadurch erfolgen, dass der Benutzer eine zufllig angezeigte Zeichenfolge zur Besttigung eingeben muss und erst nach bestandener Prfung zum nchsten Bild gelangt.

Eine Annotationsoberflche zur einfachen textuellen Beschreibung eines Bildes knnte folgendermaen gestaltet werden:

Beispiel einer mglichen Annotationsoberflche zur textuellen Bildbeschreibung

Besteht die Anforderung darin, dass Objekte auf dem Bild markiert werden sollen muss die Oberflche dementsprechend gestaltet werden.

Beispiel einer mglichen Annotationsoberflche mit der Mglichkeit Objekte zu markieren

Die Beschreibung zur Bearbeitung eines Minijobs muss ebenfalls auf den Bearbeiter angepasst werden. Arbeitsanweisungen fr Experten zur Annotation eines Bildes sind meist umfangreich und sehr detailiert beschrieben. Da es sich bei den Bearbeitern eines Minijobs auf MTurk allerdings berwiegend um Laien handelt, und das Lesen der Beschreibung nicht vergtet wird, muss diese entsprechend angepasst werden. Sie muss kurz, przise und leicht verstndlich formuliert werden und knnte wie folgt aussehen: 1. Radiobuttons schlieen sich gegenseitig aus. Bitte whlen sie die passende Beschreibung. 2. Checkboxes sind optional und es knnen mehrere selektiert werden. 3. Bitte bewerten Sie nur die visuellen Informationen des Bildes. Eine Interpretation des Bildes ist nicht erwnscht. Die Verwendung von Screenshots und Beispielbildern trgt ebenfalls zu einem schnellen Verstndnis der Aufgabe bei. Durch die intuitiv zu bedienende Oberflche und der kurzen Beschreibung des Arbeitspaketes ist die Bearbeitung des Minijobs verstndlich und von Jedermann durchfhrbar. Die Daten knnen anschlieend leicht ausgwertet werden. Anhand der Daten lassen sich dann die Bilder kategorisieren und mit ihren Merkmalen in einer inhaltsbasierten Bilddatenbank abspeichern.

5 Strategien zur Qualittssicherung


Es gibt drei Strategien zur Qualittssicherung bei Crowdsourcingverfahren. Diese beschrnken sich nicht nur auf die Annotation von Bildern sondern knnen auch bei anderen Arbeiten Verwendung finden.

Sammeln mehrerer Annotationen Je mehr Annotationen zu einem Bild vorliegen, desto genauer lsst sich dessen Grundwahrheit ermitteln. Dabei verlsst man sich auf das Prinzip der Schwarmintelligenz. Somit spiegelt die prozentual am hufigsten gegebene Antwort mit ziehmlicher Sicherheit die Grundwahrheit des Bildes wieder. Somit werden gelegentliche Leichtsinnsfehler von Bearbeitern ausgeglichen. Auerdem kann es helfen Arbeiter herauszufiltern, welche hufig falsche Antworten geben. Dies kann zum einen darin begrndet sein, dass die Aufgabenstellung nicht richtig verstanden wurde oder, dass sie versuchen einen Minijob so schnell wie mglich zu

erledigen. Diese Arbeiter knnen dann fr zuknftige Annotationsarbeiten gesperrt werden. Ein Nachteil der durch die mehrfache Annotation entsteht ist, dass die Kosten fr den Minijob steigen.

Bewertung der Annotationen durch einen neuen Minijob Die zweite Strategie besteht darin, dass ein Bild erst durch eine oder mehrere Personen annotiert wird und anschlieend ein neuer Minijob erstellt wird, in welchem die abgegebenen Annotationen wiederum bewertet werden. Da die Bewertung von bereits vorhandenen Annotationen vom Arbeitsaufwand eher gering ist, fallen die Kosten fr den Minijob niedrig aus. Mchte man ein gewisses Ma an Qualitt bei der Annotation, die Kosten aber mglichst gering halten, ist dieses Verfahren eine gute Mglichkeit.

Oberflche eines Minijobs zum bewerten von Annotationen

berprfung der gemachten Annotation Bei dieser Strategie enthlt der Minijob Bilder, von denen die Annotation bereits bekannt und geprft ist. Diese werden zufllig beim Annotationsprozess eingefgt. Der Bearbeiter selbst sieht keinen Unterschied zu den restlichen Bildern, die er beschreiben soll. Hat er eines dieser Bilder annotiert werden die abgelieferten Daten mit den vorhandenen geprften Daten verglichen. Besteht zwischen den beiden Annotationen eine zu groe Diskrepanz erscheint ein Hinweis. Es wird die korrekte Annotation angezeigt und darauf hingewiesen, worauf zu achten ist. Dieses Verfahren erfordert jediglich bereits korrekt annotierte Bilder und erzeugt ansonsten keine weiteren Kosten.

Es ist jederzeit mglich die unterschiedlichen Strategien zur Qualittssicherung miteinander zu kombinieren um somit das beste Verhltnis von Kosten und Nutzen zu erreichen.

6 Experiment

6.1 Motivation Es sollte mit Hilfe des Versuchs festgestellt werden, inwieweit die durch Crowdsourcing gesammelten Daten mit denen eines Experten zu vergleichen sind. 6.2 Versuchsbeschreibung Es wurde eine Webapplication zum Annotieren von Bildern erstellt. Zehn Benutzer whlten auf dieser ber eine Maske die Attribute aus, die das Bild am treffensten beschreiben. Aus den gesammelten Antworten wurde anschlieend die Grundwahrheit des Bildes ermittelt. Die durch Crowdsourcing ermittelte Grundwahrheit wurde anschliessend mit der verglichen, welche aus den Bilddaten hervorgeht.

6.3 Versuchsaufbau

Annotationsoberflche des Selbstversuches

10

Das Layout der Annotationsoberflche wurde bewusst einfach gehalten. Es soll nicht unntig von der Aufgabe, der Annotation des Bildes, ablenken und bersichtlich sein. Das Bild ist whrend des Annotationsvorganges stets zu sehen. Somit kann der Benutzer das Bild betrachten whrend er die mglichen Antworten studiert. Die Daten werden in einer Textdatei gespeichert. Diese ist wie folgt aufgebaut. Dank der Formatierung knnen die Daten leicht weiterverarbeitet werden. Die Auswertung erfolgte zur besseren Darstellung mit Hilfe eines Diagramms.

sommer|mittag|gebaeude|stadt sommer|mittag|gebaeude|meer fruehling|mittag|fahrzeug,gebaeude|stadt fruehling|mittag|fahrzeug,gebaeude|stadt sommer|frueh|fahrzeug,gebaeude|stadt sommer|frueh|fahrzeug,gebaeude|meer herbst|mittag|fahrzeug,gebaeude|stadt sommer|abends|mensch,fahrzeug,gebaeude|stadt winter|mittag|fahrzeug,gebaeude|stadt sommer|abends|mensch,fahrzeug,gebaeude|meer

6.3 Auswertung der gesammelten Daten Bild:

11

Grafische Auswertung der Annotationsdaten:

8 6 4 2 0 Jahreszeit Frhling Sommer Herbst Winter

8 6 4 2 0 Tageszeit

Frh Mittag Abend Nacht

15 10 5 0 Objekte Mensch Tier Fahrzeug Gebude

10 5 0 Landschaft

Stadt Berge Meer lndl. Gebiet

12

Aus den gesammelten Daten ergibt sich, dass es sich um ein Bild einer Stadt zur Mittagszeit, im Sommer handelt. Auerdem sind darauf Fahrzeuge und Gebude zu sehen.

Bildinformationen des annotierten Bildes

Wie man den Bildinformationen entnehmen kann handelt es sich um ein Bild von Tel Aviv, welches am 29.10.2008 um 10:25 Uhr aufgenommen wurde. Folglich wurde die Jahreszeit falsch bestimmt. In Isreal herrschen das ganze Jahr ber sommerliche Temperaturen. Somit ist die richtige Bestimmung der Jahreszeit sehr schwierig. Ansonsten stimmen die Daten, die durch das Crowdsourcing gewonnen wurden, mit der Grundwahrheit des Bildes berein (Schiffe zhlen zu Fahrzeugen). Das Experiment zeigt, dass Crowdsourcing genutzt werden kann um die Grundwahrheit eines Bildes bestimmen zu lassen. Es zeigt allerdings auch, dass Verfahren zur Qualittssicherung, wie hier die Annotationen des selben Bildes durch mehrere Personen, eingesetzt werden sollten.

7 Fazit
Gerade mittelstndische Unternehmen oder auch Privatpersonen haben oft nicht die personellen oder finanziellen Mittel Aufgaben von Experten erledigen zu lassen. Ihnen wird durch Crowdsourcing eine Mglichkeit geboten kostengngstig und schnell an die bentigten Daten zu gelangen. Dies knnten zum Beispiel annotierte Bilder von Melanomen sein, um ein Programm zur automatischen Hautkrebserkennung zu entwickeln. Somit sind Softwareprojekte nicht schon vor dem Beginn zum Scheitern verurteilt. Auf Grund der rasant anwachsenden Datenmenge ist Crowdsourcing aber auch fr grere Unternehmen interessant und wird in Zukunft immer mehr an Bedeutung gewinnen. Mit Amazon Mechanical Turk steht eine Plattform zur Verfgung um schnell und ohne groen Aufwand auf eine breit gefcherte Arbeitnehmergruppe zugreifen zu knnen. Durch das Festlegen von den bentigten Qualifikationen um einen HIT ausfhren zu knnen

13

wird sichergestellt, dass auch nur Turker zugelassen werden, welche den Minijob gewissenhaft bearbeiten. Um qualitativ hochwertige Daten zu bekommen, sollte auch auf die Strategien zur Qualittssicherung zurckgegriffen werden. Das Experiment hat gezeigt, dass man sich nicht auf die Annotation eines Laien verlassen kann. Man sollte daher die Schwarmintelligenz nutzen und jedes Bild von mindestens drei verschiedenen Personen anntotieren lassen. Daraus kann dann die Grundwahrheit berechnet werden. Zur weiteren Qualittssicherung knnen auch die verschiedenen Strategien miteinander verknpft werden. Dabei ist darauf zu achten, dass man einen guten Mittelweg zwischen finanziellen Mehraufwand und qualitativ hochwertigen Daten findet. Amazon Mechanical Turk ist in Deutschland derzeit noch nicht verfgbar. Allerdings kann man auf die amerikanische Plattform zurckgreifen. Dies veranschaulicht auch, dass Crowdsourcing ortsunabhngig funktioniert und man nicht an den regionalen Arbeitsmarkt gebunden ist. Ein Problem, welches im Zusammenhang mit Crowdsourcing entstehen kann ist, dass die Bearbeitung des Minijobs langweilig wird und somit auf Dauer die Qualitt der abgelieferten Arbeit sinkt. Es gibt erste Projekte, die die Annotation von Bildern als ein Spiel umgesetzt haben. Dadurch tritt die eigentliche Arbeit in den Hintergrund, da der Nutzer Spa am Beschreiben der Bilder hat und somit die Qualitt der Annotationen konstant bleibt. Dies bringt sowohl einen Mehrwert fr den Benutzer, als auch fr den Auftraggeber. Zusammenfassend lsst sich sagen, dass Crowdsourcing ein groes Potential bietet und in Zukunft immer mehr an Bedeutung gewinnen wird.

14

References
1. Alexander Sorokin, David Forsyth: Utility Data annotation with Amazon Mechanical Turk 2. Stefanie Nowak, Stefan Rger: How Reliable are Annotations via Crowdsourcing? 3. Yan-Ying Chen, Winston H. Hsu, Hong-Yuan Mark Liao: Learning Facial Attributes by Crowdsourcing in Social Media 4. Cryrus Rashtchian, Peter Young, Micah Hodosh, Julia Hockenmaier: Collecting Image Anntotaions Uzing Amazons Mechanical Turk 5. Carl Vondrick, Deva Ramanan, Donald Patterson: Efficently Scaling Up Video Annotation with Crowdsourcing Marketplaces 6. Catherine Wah: Crowdsourcing and Its Applications in Computer Vision