Verwenden von Computer Vision zum Kennzeichnen der Sammlung.

Während unseres gesamten Sammlungsprojekts haben wir über die Verwendung von Computer Vision und maschinellem Lernen gesprochen, um visuelle Beziehungen zu bestimmen. Darüber hinaus haben wir dieselben Tools verwendet, um Bilder zu analysieren und Betreffschlüsselwörter für die Suche bereitzustellen. Sam Hains hat diesen Teil des Projekts für uns erledigt und ich werde Ihnen sagen, dass dies ein schwieriges Stück war. Computer können nur mit impressionistischen Gemälden so weit kommen… erinnerst du dich an die Kuscheltiere ?! ??

Im ersten Teil dieses Projekts wurden sechs Dienste verwendet - Microsoft Azure, IBM Watson, Google, AWS Rekognition, TensorFlow und Clarifai -, um Gemälde in unserer Sammlung zu „betrachten“ und uns mitzuteilen, was darin enthalten war. Wir verwendeten die von jedem Dienst gelieferten Standardmodelle, die hauptsächlich anhand von Fotos geschult wurden, sodass wir wussten, dass viele Fehler auftreten würden. Dieser Teil des Projekts wurde zu einem sorgfältigen Gleichgewicht zwischen der Minimierung von Fehlern und der Wahrung des Zufalls, den uns Maschinen gaben.

Sprechen wir also zuerst über Serendipity. Hier ist ein wirklich gutes Beispiel für Computer, die Verbindungen über Wörter herstellen, die wahrscheinlich kein Mensch jemals finden würde - insbesondere nicht diejenigen, die mit der Erstellung „genauer“ Schlüsselwörter beauftragt sind. So sieht die Suche nach „Cherubs“ aus…

Suchergebnisse für

Natürlich sind dies keine Cherubs, aber viele dieser Dinge könnten als Cherub-artig angesehen werden, und Sie können sofort sehen, dass ein Konzept in der gesamten Sammlung angewendet wird. Dies bringt Sie zum Nachdenken und zum Herstellen von Verbindungen. Es ist diese Magie, die wir behalten wollen.

Computer markierten Giorgio de Chiricos Porträt von Dr. Barnes Porträt (BF805) als [0,37 - Christus, 0,12 - Mann, 0,06 - alt + Frau, 0,06 - Heiliger, 0,04 - Porträt, 0,03 - Engel, 0,03 - Mutter, 0,03 - Verführung] . Lassen Sie also das Schrubben religiöser und geschlechtsspezifischer Begriffe beginnen.

Während wir versuchen, die Magie zu bewahren, versuchen wir auch, Fehler zu minimieren. Eine Möglichkeit, dies zu erreichen, ist die Verwendung von Vertrauensbewertungen, die die meisten dieser Dienste zusammen mit den Schlüsselwörtern liefern. Wir haben zunächst einen Cutoff erstellt, sodass die esoterischeren Wörter mit niedrigeren Konfidenzbewertungen gestrichen wurden. Wir haben auch Keywords zwischen Services verglichen, um festzustellen, ob Services Tags vereinbart haben. Wenn zwei oder mehr Dienste angaben, dass ein Gemälde „Äpfel“ enthielt, haben wir dieses Ergebnis beibehalten.

Dann haben wir auch unser eigenes Modell erstellt - ein Projekt, das etwas mehr Arbeit gekostet hat. Ich setzte mich mit einer Reihe von Objekten hin und markierte sie. Sam verwendete meine Ergebnisse, um ein Modell zu trainieren. Nach einigem Nudeln, das auf Github dokumentiert ist, waren diese Ergebnisse ziemlich genau und die meisten dieser Tags wurden beibehalten. Am Ende hielten wir all diese Methoden für notwendig, um die Ergebnisse zu beschneiden und uns etwas Wertvolles zu geben.

Trotz all dieser Methoden mussten wir die Ergebnisse noch bereinigen. Computer schienen es außerordentlich schwer zu haben, das Geschlecht der in Kunstwerken abgebildeten Personen zu bestimmen. Daher haben wir geschlechtsspezifische Wörter oder Wortvariationen eliminiert. Wir haben auch religiöse Wörter eliminiert, nachdem wir gesehen haben, dass Computer unseren Gründer als „Christus“ bezeichnen. Dies war nicht der einzige Fall - Sam berichtete in seiner Dokumentation: "Es schien, als würde die 'Christus'-Klasse jeden bärtigen Mann aufheben."

Computer dachten, unser „Pferd (BF1166)“ sei * jede * Art von Tier. [0,68 - Hirsche, 0,41 - Wildtiere, 0,27 - Hund, 0,27 - Pferd, 0,25 - Säugetier, 0,25 - keine Person, 0,24 - Katze, 0,23 - eins, 0,23 - Giraffe, 0,22 - pferdeartiges Säugetier, 0,19 - Löwe, 0,11 - Lamm, 0,05 - Tiger, 0,04 - Kuh, 0,03 - Ziege, 0,03 - Löwe]. Höhere Konfidenzbewertungen wurden beibehalten, niedrigere fallen gelassen, und fehlerhafte Tags werden auftauchen, aber hoffentlich zu einem Entdeckungsmechanismus.

Wir haben eine Farbanalyse durch Computer-Vision-Verarbeitung der tatsächlichen visuellen Eigenschaften des Gemäldes durchgeführt - dies ist der Antrieb für unsere Suche nach Farben. Es sollte jedoch beachtet werden, dass wir aus offensichtlichen Gründen eliminiert haben, wenn ein Computer versucht hat festzustellen, ob etwas Bestimmtes (oder höchstwahrscheinlich jemand Bestimmtes) eine Farbe ist. Wir haben Computer eliminiert, die uns sagten, dass etwas ein „Hund“ sei, weil dies auf eine außergewöhnliche Menge von Objekten angewendet wurde, die Frauen darstellten, als überhaupt keine Hunde anwesend waren. Wenn Sie neugierig sind, waren Katzen viel weniger ein Problem.

All dieses Scrubbing bedeutete, eine Liste von 40.000 Tags zu Red-Flag-Wörtern durchzugehen, von denen wir glauben, dass sie in Anwendungen, die variieren können, problematisch sein könnten. Wir haben dann eine Stichprobe durchgeführt, um herauszufinden, wie hoch unsere Toleranz ist, wenn wir Tags betrachten, die direkt auf Objekte angewendet werden. Wir haben uns entschlossen, viele andere Dinge loszulassen, da letztendlich sogar fehlerhafte Schlüsselwörter zur Entdeckung beitragen können. Versuchen Sie, nach „Graffiti“ oder „Selfie“ zu suchen.

Es versteht sich von selbst, dass beim Erstellen von Titeln, Beschreibungen und anderen Feldern in unseren Metadaten in den Suchergebnissen hohe Prioritäten gesetzt werden und die von Computern generierten Schlüsselwörter zuletzt auftauchen. Eine Aufgabe nach dem Start besteht darin, die Konfidenzbewertungen in der Reihenfolge der Suchergebnisse zu berücksichtigen. Dies wird uns helfen, einige dieser zufälligeren Verbindungen aufrechtzuerhalten und gleichzeitig genauere Ergebnisse zu erzielen.

Sie werden auch feststellen, dass in den Objektmetadaten kein „Schlüsselwortfeld“ sichtbar ist. Das Auftauchen durch Suchen ist eine Sache, aber es kann eine Weile dauern, bis Sie diese computergestützten Schlüsselwörter sehen, die direkt auf der Seite zugeordnet werden können.

Das Online-Projekt der Barnes Foundation-Sammlung wird von der Knight Foundation finanziert und unser Code ist Open Source. Folgen Sie der Barnes Foundation auf Medium.