Veröffentlicht am 04-09-2019

COCOs Memory Palace: Eine seltsame Fantasie

(Dies ist meine Rede zum KIKK Festival 2017, die vom Tech Track geschrieben wurde. Sie war der Rede von @ quasimondo entgegengesetzt, daher denke ich, dass sie im Text ein größeres Publikum finden könnte.)

Dieser Vortrag entspringt meinem Interesse, Texte und Bilder für künstlerische Zwecke zu transkodieren. In diesem Vortrag geht es um Fotografien und generative Poesie. Da ich jetzt auch mit maschinellem Lernen arbeite, geht es auch um das Gedächtnis, sowohl des Menschen als auch des Modells.

Projekt 1: Farbgedichte

Das erste Projekt, das ich zeigen werde, wurde von einer wunderbaren Farbzusammenfassungs-API von Martin Krzywinski inspiriert. Vor ungefähr 6 Monaten war ich genug beeindruckt von dem Abschnitt "Bild in Worten" - siehe rechte Seite -, dass ich ihn fragte, ob ich einen Bot machen könnte, der die API für poetische Zwecke verwendete. Er sagte mir, ich solle es tun und den Poesiewinkel wirklich verdoppeln.

http://mkweb.bcgsc.ca/colorsummarizer/

Martins API enthält 9284 Wörter für Farben: „Meine Liste verwendet die folgenden Quellen: bang-v2, Bier-SRM-Diagramm, colorhexa, crayola, n3, ntc, pantone, raveling, resene, rgb.txt (X11), steve.hollasch, wikipedia , und xkcd. ”Dies bedeutet eine Menge Variationen, wie Sie es von einem generativen Textalgorithmus erwarten.

In meinem Projekt werden zufällige professionelle Fotos von der Unsplash-API aufgenommen, die ich durch einen CSS-Filterprozess konvertiere, um sie in Graustufen umzuwandeln, zu verwischen und transparent zu machen. Anschließend werden zufällige Farbwörter aus den vier Hauptfarben, die von Martins API zurückgegeben werden, überlagert. Ich rendere die Farben als Wörter und mische auch ein oder zwei Substantive aus der Google Cloud Vision-API ein.

Meine Farbgedichte sind das Ergebnis (Substantive von Vision API sind wahrscheinlich

Die Farben im Bild werden in einer Schrift der gleichen Farbe in Text umgewandelt, während das Bild selbst schwarzweiß wird und in den Hintergrund tritt. Ich mag einige von ihnen sehr, sie überraschen und bringen mich zum Lachen:

Andere sind einfach hübsch und mysteriös, wie die Bilder selbst.

Der Text wird mit BigText.js angelegt. Das Schwierigste an diesem Projekt war für mich das CSS-Design und die Rechtschreibung von Martins Namen im Abspann. Ich habe noch keinen Bot erstellt oder auf einer Live-Site platziert. Ich machte mir Sorgen, dass ich damit seinen persönlichen Server schlagen könnte. Als ich versuchte, seinen Code lokal auszuführen, wurde ich in eine ganze Welt wissenschaftlicher Perl-Bibliotheken eingeführt, von denen ich nicht wusste, dass sie existieren. Es ist mir nie gelungen, alles auf meinem Mac zum Laufen zu bringen.

Die meisten Ergebnisse sind wirklich gut. Einige sind witzig und peinlich, weil Googles Vision-API seltsam objektiv und klinisch ist und Dinge wie "Produkt" und "Ökosystem" anstelle von "Holz" und "Wald" sagt.

Ein frühes Ergebnis vor allen CSS-Korrekturen, Schlagschatten usw. Google liebt „Produkte“.

Am Ende fand ich das Ergebnis etwas kalt: Die Verwendung der professionellen Fotos (oft sehr verwaschene Farben, wie es scheint!) Und der Mangel an Geschichte und Emotionen in der Poesie störten mich.

Verschiedene Fotos, anderer Text

Ich begann über andere Bilder nachzudenken: Urlaubsfotos, Selfies und Familienfotos, wie dieses von meiner Schwester und Nichte vor Jahren.

Familienfoto. Rockin ’das zu tun.

Wie lesen wir dieses Bild? Die meisten Leute würden den Fokus als die 2 Menschen sehen, einer davon sehr süß, und eine Aufforderung benötigen, sich die Details der Tasse, der Tür, der Frisur, des Lächelns anzuschauen ...

John Bergers Essay "Understanding a Photograph" wird hier veröffentlicht, in dem er Folgendes festhält:

Ein Foto ist bereits eine Nachricht über das Ereignis, das es aufzeichnet. Die Dringlichkeit dieser Nachricht hängt nicht vollständig von der Dringlichkeit des Ereignisses ab, kann jedoch auch nicht vollständig davon unabhängig sein. Im einfachsten Fall bedeutet die entschlüsselte Nachricht: Ich habe entschieden, dass es sich lohnt, diese Nachricht aufzuzeichnen. Fotografie ist der Prozess, Beobachtung selbstbewusst zu machen.

Das Fotografieren ist ein Moment der Entscheidung über einen Moment der Zeit. Dieses Bild von diesem Moment und diesen Dingen ist es wert, in Erinnerung zu bleiben. Ich kann mich nicht daran erinnern, wie ich das Foto meiner Schwester und Nichte gemacht habe, aber das Foto ist trotzdem sofort ein vertrauter Moment.

Die visuelle Ethnographie ist eine weitere interessante Art, über Bilder nachzudenken. Die Verwendung von Fotos zum Hervorrufen von Details und Geschichten ist eine solide Interviewtechnik. Aber ich fand dieses Foto und die Bildunterschrift etwas seltsam und aufschlussreich:

Aus dem Gespräch über Bilder: Ein Fall für Foto-Elicitation von Ben Harper

Der Ethnograf Suchar hat ein Interesse an der Sammlung. Er / sie sieht dieses Foto anders als sein „Subjekt“, das es als David und Daniel und die Katze sieht. (Mein Interesse gilt der Katze, weil ich eine Katze habe und die Kinder dieses Mannes nicht kenne. Ich schätze sein enormes Lächeln jedoch.)

Ich habe auch über visuelle Gedächtnissysteme in Frances Yates 'The Art of Memory gelesen. Die "künstliche Erinnerung", ein Konzept, das auf griechische Rhetoriker und spätere mittelalterliche Mystiker wie Giordano Bruno zurückgeht, ist ein imaginäres visuelles System zur Organisation von Informationen, an die wir uns erinnern möchten. Yates zitiert einen anonymen klassischen Rhetoriker:

„Es gibt zwei Arten von Erinnerungen: eine natürliche und eine künstliche. Das natürliche Gedächtnis ist das, was in unseren Köpfen verankert ist und gleichzeitig mit dem Denken geboren wird. Das künstliche Gedächtnis ist ein durch Training gestärktes oder bestätigtes Gedächtnis. “

Wir können sie in „Memory Palaces“, internen Architekturen, mit Orten für die Objekte konstruieren, an die wir uns erinnern möchten.

Fludd’s Memory Palace für Musik (Link)
„Das künstliche Gedächtnis wird aus Orten und Bildern aufgebaut…. Ein Ort ist ein Ort, der von der Erinnerung leicht erfasst werden kann, z. B. ein Haus, ein Säulenzwischenraum, eine Ecke, ein Bogen oder dergleichen. Bilder sind Formen, Zeichen oder Simulacra. Von, was wir uns erinnern möchten. Wenn wir zum Beispiel an die Gattung eines Pferdes oder eines Löwen oder eines Adlers erinnern wollen, müssen wir ihre Bilder an bestimmten Orten platzieren. “

Wenn wir von interkolumnaren Räumen sprechen, schauen wir uns das künstlich geschulte Gedächtnis einer anderen Bilderkennungs-API an, die zur Verwendung zur Verfügung steht: Amazon Rekognition. Ich habe ihm dieses Foto von alternden Whiskyfässern von @TheGlenlivet übergeben.

Ich liebe die Ergebnisse.

Ich finde sie metaphorisch, evokativ, verständlich: poetisch. Vor allem, wenn wir ein Konfidenzniveau von 50% erreichen: Tempel, Anbetung. Das Parthenon. Die merkwürdige Besonderheit von Amazon Rekognitions Memory Palace! (Alle Spaltenräume sind Parthenons für die Erkennung.)

Ah, ich kann das für generative Gedichte oder Geschichten verwenden, dachte ich!

Ich habe zuerst eine winzige Menge früherer Kunstforschung in der Poesie betrieben. Es gibt nicht so viele berühmte Gedichte über Fotografien wie berühmte Gedichte über Gemälde, aber sie existieren. Ich vermute, es gibt viele, nur ausgebreitete, diffuse und größtenteils unbekannte, so wie es die meisten Fotos sind. (Berger sagt, sie sind keine schöne Kunst, weil sie zu kurzlebig sind.) Aber hier ist eine Beispielsammlung.

von www.donttakepictures.com/dtp-blog/2016/4/13/poems-about-photography

Meine Gedichte sind bei weitem nicht so gut, weil sie von einem Motor stammen und nicht maßgeschneidert sind. Ich nehme an, das wird immer so sein, wie es ist.

Projekt 2: Bilderkennungsgedichte

Derzeit gibt es zwei Möglichkeiten, um Bilder mit dem Tool zu erkennen: die allgemeine API-Kennzeichnung des breiten „Inhalts“ des Fotos wie Google Cloud Vision und Amazon Recognition sowie die Objektidentifizierung, mit der die Objekte auf den Fotos lokalisiert werden (der folgende Teil auf COCO). Meine Ergebnisse von den allgemeinen Etikettierungsdiensten waren am Ende als Texte am erfolgreichsten, wahrscheinlich weil sie sich besser auf den Inhalt der Fotos konzentrieren konnten.

Verwenden von Amazon Rekognition (rot) und Google Vision API (schwarzer Text) aus einem flickr-Bild mit einer Grammatik von tracery.js.

Es gibt eine Tracery.js-Grammatik, die Substantive verwendet, die von den APIs zurückgegeben wurden. Der schwarze Text ist "Framing" -Text aus der Vision-API von Google, der rote Text ist die Amazon-Erkennungs-API. Ich habe die Grammatik von Amazon komplexer gemacht, ihre Äußerungen emotionaler, passend zu ihrem Nominalvokabular. Ich habe auch die von Amazon verwendeten Ergebnisse auf <85% beschränkt, um die metaphorische und poetische "Chance" zu erhöhen.

Bild lokal zu KIKK Festival Talk :)

Die Grammatik von Amazon hat sich während des Spiels weiterentwickelt, um mehr über Geschichten und Erinnerungen und Erfahrungen von Dingen zu sprechen. Wie persönliche Fotos. Ein Wald kann auch ein Korallenriff oder ein Ozean sein, den wir einmal gesehen haben. Ein Ort, an dem wir spazieren gegangen sind und an dem wir jemanden getroffen haben. Googles Grammatikstimme ist im Vergleich fast knapp. Es endet damit, dass wir alle in unserer Interpretation korrigiert werden. Vielleicht sollte es in der nächsten Generation dieses Work-in-Progress aus den Gedichten entfernt werden.

"Aber dies ist eine fremde Stadt mit einer fremden Straße": Dieser schöne Unfall kommt von der Grammatik, in der über Fremde gesprochen wird, und von der Wiedererkennung, in der über Straße und Stadt gesprochen wird.

Der poetischen Chance sind interessante Grenzen gesetzt, wenn die Erkennungsfakten einfach falsch sind: Das unheimliche Tal der poetischen Fehlerkennung reicht nicht aus, um die Flagge falsch zu halten. Unten sehen Sie ein amerikanisches Modell für maschinelles Lernen #fail und keine Metapher.

ML #fail eher als Poesie.

COCO

Ich wollte die Gedichte ursprünglich interaktiv machen: Wenn Sie auf Objekte in ihnen klicken, erhalten Sie eine neue poetische Sequenz, möglicherweise sogar eine Geschichte.

Um bestimmte Bilder zu erkennen, können wir ein auf MS COCO geschultes Modell verwenden, das Microsoft-Dataset „Common Objects in Context“. Dies ist ein Datensatz von Bildern mit lokalisierten 80 Objekten (im Jahr 2014), die „von einem 4-Jährigen leicht erkannt werden können“.

aus dem MS COCO-Papier

Was ist ein "gemeinsames Objekt" für einen amerikanischen 4-Jährigen? Worauf das Modell geschult ist, ist, worüber das Modell mit uns sprechen kann. Ich bezeichne das trainierte Modell, das ich verwendet habe, ab sofort als "COCO". Also, was ist in COCOs Gedächtnispalast?

COCO kennt ungefähr 80 Objekte, und das sind sie:

Dinge in einer Stadt (plus Boote): "Person", "Fahrrad", "Auto", "Motorrad", "Flugzeug", "Bus", "Zug", "LKW", "Boot", "Ampel", "Hydrant", "Stoppschild", "Parkuhr", "Bank"

Tiere, Bauernhof und Mini-Safari: "Vogel", "Katze", "Hund", "Pferd", "Schaf", "Kuh", "Elefant", "Bär", "Zebra", "Giraffe"

Dinge, die Menschen haben und tragen: "Rucksack", "Regenschirm", "Handtasche", "Krawatte", "Koffer"

Sportutensilien: "Frisbee", "Ski", "Snowboard", "Sportball" [ernst], "Kite", "Baseballschläger", "Baseballhandschuh", "Skateboard", "Surfbrett", "Tennisschläger"

Essgeschirr und eine schlechte Ernährung: "Flasche", "Weinglas", "Tasse", "Gabel", "Messer", "Löffel", "Schüssel", "Banane", "Apfel", "Orange", "Brokkoli" "," Karotte "," Hot Dog "," Pizza "," Donut "," Kuchen "," Sandwich "

Seltsame Dinge in Häusern, insbesondere in Computern: "Stuhl", "Couch", "Topfpflanze", "Bett", "Esstisch", "Toilette", "Fernseher", "Laptop", "Maus", "Fernbedienung", "Tastatur", "Handy", "Mikrowelle", "Backofen", "Toaster", "Spüle", "Kühlschrank", "Buch", "Uhr", "Vase", "Schere", "Teddybär", "Fön", "Zahnbürste"

Wir schauen uns das im Detail an, damit wir darüber nachdenken können, was hier ist und was nicht. COCO kennt Topfpflanzen, aber keine Bäume. Sie mag Brokkoli, aber keinen Blumenkohl. COCO sieht Uhren an der Wand, aber keine Fenster. COCO kennt sich mit Computern gut aus, kennt sich nicht mit Straßen, Bergen oder dem Himmel aus.

(Technischer Hinweis: Ich habe das Tensorflow-Objekterkennungsmodell verwendet, das mit einer Jupyter-Notebook-Demo aus diesem Ordner verfügbar ist. Normalerweise sind Tensorflow-Demos automatisch veraltet, aber dieses Repo wurde offenbar kürzlich aktualisiert, was bedeutet, dass es möglicherweise mit einer neueren Version von funktioniert tensorflow jetzt. Aus dieser Demo heraus habe ich eine Flaschen-API erstellt, um sie mit Bild-URLs auszuführen und Ergebnisse an meinen Browser zu liefern.)

Was wird COCO angesichts dieses Bildes sehen?

Beispielbild

Wenn Sie die Jupyter-Notebook-Demo ausführen, erhalten Sie die folgenden Kennungen:

COCO findet links Topfpflanzen, unten rechts Brokkoli, eine Person mit einer Handtasche, die keine hat, und ein Handy, auf dem sich ihr Gesicht befindet. In COCOs Gedächtnispalast haben Frauen wie diese vielleicht Taschen und Telefone. Diese Person geht auf Bänken.

Ich denke, die Liste der COCO-Labels ist nicht super "poetisch". Aber es ist mir eingefallen, das zu überprüfen. Ich habe mir Allison Parrishs Gutenberg-Gedichtkorpus ausgeliehen (alle Project Gutenberg-Texte, die im Titel „Poems“ oder „Poetry“ enthalten, Link in diesem Projekt) und nach Treffern für COCOs Labels gesucht. Ich habe es ohne Verarbeitung für Bigrams geschafft, also musste ich die poetischen Hits herausfiltern, die zu einem einzigen Wort von COCOs Paaren wie "Haartrockner" und "Teddybär" passen.

Die un-X-ed Wörter zeigen, dass Betten ziemlich poetisch sind, ebenso wie Vögel und Wein und Pferde. Dann gehen wir den Hits auf den Grund:

"Couch" ist poetischer als "Katze", aber vielleicht weil es ein Verb sein kann. "Apple" schlägt "Orange", vielleicht weil es biblisch ist. "Toilette" tritt im Zusammenhang mit Ihrer Morgentoilette auf (Haare frisieren und waschen, nehme ich an), nicht so sehr mit dem Objekt. (Ich habe das zuerst überprüft.)

Weitere Überraschungen: Messer wirken beim Besteck viel poetischer als Löffel und Gabeln, die gleichermaßen unpoetisch sind. "Teddy" erscheint in archaischen "Steddy" -Schreibweisen. Sandwiches sind eine Art Code für ungezwungene Mahlzeiten, auch wenn sie Champagner enthalten:

Für die Singletons fand ich "in der Mikrowelle", "auch wenn Eis und Pizza toten Humor verbinden" und "Donut-Skalen".

Für mein Projekt verwendete ich eine lokale API mit Tensorflow und das von COCO trainierte Modell (ich verwendete „ssd-inception-v2-TRAINED-coco-11–06–2017“). Die Fotos waren Flickr-Fotos, die von einem Suchbegriff stammen, den ich eingegeben habe. Das Bild wird mit anklickbaren Feldern gerendert, die den "erkannten" oder "erinnerten" Objekten entsprechen. Wenn Sie darauf klicken, wird das Gedicht aus einer Maßwerk-Grammatik erstellt.

COCO sieht die Straße und die Bäume nicht. Sie sieht Uhren in den Zweigen.

Die Grammatik, die ich in Tracery.js geschrieben habe, berücksichtigte die Ungewissheit der Objektidentifikation, wobei die von Amanda Cox bei OpenVis Conf im vergangenen Jahr geteilten Ergebnisse dazu herangezogen wurden, wie Menschen Ungewissheit in Worten beschreiben:

Von https://github.com/zonination/perceptions

In meiner Grammatik besteht die Regel aus Phrasen, die ein gewisses Maß an Sicherheit einfangen, aber mit einem Dreh, um eine junge, naive Stimme und eine metaphorische Sprache hinzuzufügen. Für 10 bis 20% Selbstvertrauen hält COCO es beispielsweise für "keine Chance", "nicht wahrscheinlich", "wie einen Traum, den ich einmal hatte". Für 60 bis 80% hält sie es für "eine gewisse Wahrscheinlichkeit", "eine solide" Glaube "," wahrscheinlich. "

In einer frühen fehlerhaften Version mit literarischen Bildern in Flickr's Creative Commons, wobei der erste Satz von Google Vision stammt:

Ich langweilte mich schnell wegen ihrer 80-Wörter-Unentschlossenheit. Poesie, wie Fotografien, hängt auch davon ab, was nicht da ist. Das Projekt „Every thing every time“ von Naho Matsudo hat mich inspiriert. Es ist eines meiner bevorzugten Data-to-Text-Kreativprojekte, bei denen in Manchester beobachtete Daten in Gedichte umgewandelt werden:

In diesen Gedichten werden die fehlenden Ereignisse poetisch interessant.

Um das Vokabular von COCO zu erweitern, über das sie nichts weiß, habe ich eine neue lokale API hinzugefügt, die auf einem englischen Gigawort-word2vec-Modell basiert, das einen Teil der Sprachinformationen codiert hat. Ich nahm word2vec-bezogene Nomen von der Flickr-Suche und von ihren eigenen Labels und machte COCO darauf aufmerksam, dass sie sie definitiv nicht sah.

Wörter, die „castle_NOUN“ im englischen Gigawort über meiner lokalen Kolben-API am ähnlichsten sind

In diesem Beispiel findet das Modell w2v Sofas und Liegen, die für die Couch relevant sind. COCO ist ziemlich zuversichtlich in Bezug auf die Person und die Couch.

Die letzte Zeile stammt von dem Klick auf die Kontur rechts vom stehenden Jungen. Er hat keine Liege, das ist sicher.

In diesem Fall macht sich COCO Sorgen um Menschen und ihr Gepäck. (Sie kennt sich mit Rucksäcken aus, daher nimmt das w2v-Modell Rucksäcke, Trolleys und Koffer mit, um ihre Zweifel zu vergrößern.)

COCO ist immer noch ein seltsamer Vogel, weil ihr Fokus so besonders ist. Ihr Gedächtnispalast hat keine Säulen, Türme und Bäume.

Schließlich gab ich Amazon-Ergebnissen auch einige verwandte Substantive und färbte sie alle zusammen (COCO in Gelb) in seltsamen Gedichten, die zwischen traurigen Obsessionen mit Messern und wunderschönen Waldmetaphern wechseln könnten:

Gedichte über Gemälde

Es gibt einige sehr berühmte Gedichte über Gemälde. Ich fragte mich, wie mein Spielzeug darauf wirken würde. Mein Favorit ist das "Musée de Beaux Arts" von W.H. Auden.

COCO sieht natürlich die Menschen und nicht die winzigen Beine.

Amazon Recognition macht es ein bisschen besser, mit einem Wald, in dem Sie vielleicht etwas gesehen haben.

Eine weitere wunderbare Kombination aus Gedicht und Malerei ist Wallace Stevens '"Der Mann mit der blauen Gitarre" für Picassos Gemälde:

Der alte Gitarrist (Picasso) [Seine Gitarre ist nicht blau.]
"Der Mann beugte sich über seine Gitarre,
Eine Art Scherer. Der Tag war grün.
Sie sagten: „Du hast eine blaue Gitarre,
Du spielst die Dinge nicht so, wie sie sind. “
Der Mann antwortete: „Die Dinge wie sie sind
Sind auf der blauen Gitarre gewechselt. "

Das Farbgedicht für dieses Bild ist nicht schlecht:

Aber COCO denkt nur, dass die Gitarre ein Teddybär ist.

Die Dinge für die Dichter verschwommen halten

Wir erfahren, dass die Ergebnisse des maschinellen Lernens in Bereichen wie Bild- und Spracherkennung die menschliche Leistung übertreffen.

https://www.eff.org/ai/metrics

Und wir erfahren, dass Menschen fehlbar sind, vielleicht weil sie Kinder und Katzen auf Fotos betrachten, nicht Tabletts an der Wand:

Verknüpfung

Wie viele andere Künstler interessiert mich, wie wir diese Werkzeuge in kreativen Handlungen einsetzen können, nicht unbedingt in präzisen Handlungen. Bei Allison Parrish würde ich gerne wissen, was Gertrude Stein mit COCO machen würde, wenn sie hier wäre, um es zu versuchen.

Ich würde gerne mehr Sprachmodelle sehen, die das menschliche Gedächtnis sowie Wünsche und Träume widerspiegeln. Das Vokabular im Modell beeinflusst die Poesie, die wir erzeugen können. Gestelzte wissenschaftliche Substantive beschränken uns auf bestimmte Anwendungsfälle. Die Fehler scheinen mir in der Komposition weniger wichtig zu sein als die Weltsicht des Modells. Wie gesagt, worauf das Modell trainiert ist, worüber das Modell mit uns sprechen kann. Dies ist in großer und kleiner Hinsicht wichtig.

Aber während ich mit unseren modernen künstlichen Gedächtnispalästen spiele, sehe ich in Yates 'Art of Memory einen Hinweis auf ihre wunderbaren Möglichkeiten:

… Ein künstliches Gedächtnis, das außer Kontrolle geraten ist und wilder Fantasie freien Lauf lässt… die Traumarchäologie eines Humanisten mischt sich mit Traumgedächtnissystemen, um die seltsame Fantasie zu formen.

Vielen Dank.

Siehe auch

3 Probleme mit kreativem Durcheinander und wie man sie löstNiemals erwachsen werdenMeine virtuelle Ausstellung Teil 2Das Verrückte am Design: Gedanken zu #AIRetreatDie Kunst der JobsucheDie Kunst des Lächelns: Länger leben und glücklicher sterben