Dieser Abschnitt enthält Informationen über die Informationsquelle zum Abrufen der Kunstmetadaten, das Verfahren zum Auswählen der Kunstwerke für den Datensatz und die Systemarchitektur zum Erstellen der Dialoge.
Quelle der Kunstinformationen
Der ArtEmis-Datensatz6 ist eine umfangreiche Sammlung mit 455.000 Emotionszuschreibungen und -erklärungen, die alle mit 80.000 Kunstwerken verknüpft sind, die von der WikiArt-Website stammen13. Das Hauptziel dieses Kunstdatensatzes besteht darin, in den Bereich sprachlicher, affektiver Erklärungen einzutauchen, die auf visuellen Reizen basieren. Die Annotatoren dieses Datensatzes hatten die Aufgabe, visuelle Attribute in Kunstwerken und die entsprechenden psychologischen Interpretationen von Emotionen zu erklären und Verbindungen zwischen ihnen herzustellen.
Innerhalb des ArtEmis-Datensatzes arbeiten die Annotatoren mit einem wohldefinierten Satz von acht kategorischen Emotionszuständen. Diese Emotionen umfassen vier negative Kategorien: Wut, Ekel, Angst und Traurigkeit sowie vier positive Kategorien: Belustigung, Ehrfurcht, Zufriedenheit und Aufregung. Dieser Kategorisierungsrahmen hilft dabei, die von den Annotatoren bereitgestellten emotionalen Zuschreibungen zu strukturieren und zu standardisieren.
Der Annotationsprozess für ArtEmis war sehr sorgfältig. An jedem Kunstwerk waren mindestens fünf Annotatoren beteiligt. Ihre Aufgabe begann damit, ihre vorherrschende emotionale Reaktion auf das Kunstwerk auszudrücken, indem sie eine der vordefinierten acht Emotionskategorien oder eine neunte Option mit der Bezeichnung „etwas anderes“ auswählten. Diese neunte Option ermöglichte es den Annotatoren, Emotionen auszudrücken, die möglicherweise nicht explizit aufgeführt sind, oder klarzustellen, wenn sie keine starke emotionale Reaktion erlebten. Abbildung 1 zeigt ein Histogramm der im ursprünglichen ArtEmis-Datensatz erfassten Emotionen. Wie wir sehen können, ist die Verteilung der Emotionen nicht ausgewogen, was zu einer unerwünschten Verzerrung führt.
Nach diesem ersten Schritt mussten die Kommentatoren ausführliche Erklärungen in freiem Text abgeben. Diese Erklärungen sollten konkrete Verweise auf die im Kunstwerk vorhandenen visuellen Elemente enthalten.
Die Statistiken des Datensatzes unterstreichen dessen Umfang und Bedeutung. Er umfasst insgesamt 454.684 erklärende Äußerungen und emotionale Reaktionen mit 37.250 unterschiedlichen Wörtern. Der ArtEmis-Datensatz umfasst 80.031 einzigartige Kunstwerke von 1.119 Künstlern. Dieser zugrunde liegende Datensatz deckt ein breites Spektrum von 27 Kunststilen (darunter abstrakt, Barock, Kubismus und Impressionismus) und 45 Genres (darunter Stadtbild, Landschaft, Porträt und Stillleben) ab und bietet somit eine vielfältige Palette visueller Reize für die Analyse.
Auswahl von Kunstwerken aus dem ArtEmis-Datensatz
Zur Auswahl der Kunstwerke, die im vorgeschlagenen Art_GenEvalGPT-Datensatz enthalten sind, haben wir die Metadateninformationen verwendet, die mit der ersten Version des ArtEmis-Datensatzes bereitgestellt wurden.6die nicht nur Informationen über das Kunstwerk selbst (Titel, Künstler, Stil usw.) umfassten, sondern auch ein detailliertes Verständnis des Zusammenspiels zwischen visuellem Inhalt, seiner emotionalen Wirkung und natürlichsprachlichen Erklärungen für die Emotionswahl der verschiedenen Kommentatoren.
Erstens, obwohl die ursprüngliche Gesamtzahl der gemeldeten Künstler im ArtEmis-Datensatzartikel6 betrug 1.119, wir filterten 9 Künstler heraus, die als „unbekannte“ Künstler gekennzeichnet waren, also solche, die mit Kunstwerken in Verbindung standen, deren Namen oder Kunstwerktitel problematische Kodierungsformate aufwiesen, und erhielten so insgesamt 1.110 Künstler, was letztlich zu insgesamt 799 verschiedenen Kunstwerken führte. Dann kategorisierten wir die 1.110 Künstler als weiblich oder männlich, was zu 9,27 % (103) Frauen und 90,73 % (1.007) Männern führte. Dieses Ergebnis unterstreicht die unausgewogene Geschlechterrepräsentation der Künstler im ursprünglichen Datensatz. Die kommentierte Datei mit den Namen der Autoren und ihren Geschlechtern kann hier heruntergeladen werden: https://shorturl.at/tPU15.
Wie im vorherigen Abschnitt erläutert, enthält der ArtEmis-Datensatz mehrere Dimensionen, die als Ziel für den Ausgleich unseres neuen gefilterten Datensatzes verwendet werden könnten (d. h. mit dem Ziel, Verzerrungen zu reduzieren). Zunächst begannen wir damit, verschiedene Dimensionen und Kriterien in Betracht zu ziehen, wie etwa den Ausgleich des ausgewählten Datensatzes nach Stil, Künstler, Geschlecht, Jahr usw. Wir fanden es jedoch sehr schwierig, ihre Verteilung nach einem dieser Kriterien auszugleichen, was zu unerwünschten Verzerrungen führte oder diese aufrechterhielt. Schließlich entschieden wir uns dafür, die Gemälde unter Berücksichtigung des Konsenses oder der Übereinstimmung zwischen den menschlichen Annotatoren bezüglich der ausgelösten Emotion und unter Ausgewogenheit der Anzahl der ausgewählten Kunstwerke pro Emotion zu sortieren. Um außerdem Rauschen im Auswahlprozess zu vermeiden, wählten wir für jede Emotion diejenigen Kunstwerke mit einer höheren Übereinstimmung zwischen den Annotatoren aus (d. h. drei oder mehr Annotatoren waren sich über dieselbe ausgelöste Emotion einig).
Indem wir diesem Kriterium folgten, stellten wir außerdem fest, dass es uns ermöglichte, die Verteilung der Daten des generierten synthetischen Datensatzes unter Berücksichtigung verschiedener Emotionen auszugleichen, was wir für einen wichtigen Aspekt bei der Erstellung eines emotionsausgeglichenen Dialogdatensatzes halten.
Daher wählten wir schließlich 100 Kunstwerke für jede Emotion aus, was zu einer Gesamtzahl von 800 Kunstwerken führte. Tabelle 1 bietet einige Statistiken zur endgültigen Verteilung des Art_GenEvalGPT-Datensatzes. Wie im folgenden Abschnitt erwähnt wird, konnte das Verfahren zum Generieren und Auswerten der Dialoge für einige Kunstwerke aufgrund von Inhaltsfilterbeschränkungen oder wiederkehrenden Fehlern während des Generierungs- und Auswertungsprozesses nicht abgeschlossen werden. Trotzdem umfasst der endgültige Datensatz 13.870 Dialoge und wie wir sehen können, löst die größte Anzahl von Kunstwerken keine Emotionen aus (d. h. sie sind neutral), aber bei denen, die dies tun, gibt es eine ausgewogene Verteilung der Emotionen. Die Anzahl der neutralen Dialoge ist höher, da für jeden Dialog eine neutrale Version generiert wurde.
System zur Dialoggenerierung und -auswertung
Zur Erstellung dieses Datensatzes verwendeten wir ein flexibles Framework namens GenEvalGPT14. Dieses mehrstufige Framework generiert geführte und synthetische Dialoge zwischen einem Menschen und einem „personalisierten“ Chatbot nach einer Rezeptstruktur mit minimalem menschlichen Eingriff. Diese Plattform bestimmt die erfolgreiche Erstellung der Dialoge anhand der bereitgestellten Spezifikationen und bewertet verschiedene Aspekte emotionaler und subjektiver Reaktionen. Die Plattform umfasst eine zweigleisige automatische Bewertungsmethode, die LLM-Selbstbewertungsbewertungen und traditionelle Metriken verwendet (die regelbasierte Metriken, formelbasierte Metriken und Metriken umfassen können, die von vorab trainierten Modellen gemeldet werden, die sich von LLMs unterscheiden), um die Bewertung der generierten Merkmale und Kontextinformationen durch das LLM anhand der in der Eingabeaufforderung angeforderten Daten zu ermöglichen.
Sobald die Dialoge auf der Grundlage spezifischer Profile erstellt wurden, implementiert die GenEvalGPT-Plattform mehrere Strategien, um die Qualität der generierten Dialoge automatisch zu bewerten. Eine dieser Strategien besteht darin, aus den Dialogen das Profil zu extrahieren, das für ihre Erstellung verwendet wurde, und sowohl das extrahierte als auch das ursprüngliche Profil zu vergleichen. Anschließend wird die Wirksamkeit dieser Profilrekonstruktion in einem zweiten Schritt anhand maßgeschneiderter Metriken bewertet, die sich sowohl auf lexikalische als auch semantische Aspekte beziehen. Diese Metriken waren der Jaccard-Index15Genauigkeit, Levenshtein-Distanz, WER16BLEU-117und eine Kosinus-Ähnlichkeitsmetrik. Auf diese Weise kann überprüft werden, ob die generierten Dialoge den angeforderten Anweisungen folgten und die bereitgestellten Metadaten enthielten.
In Bezug auf die emotionalen und subjektiven Reaktionen haben wir den Begriff „anthropisch“ geprägt, um die Eigenschaft zu beschreiben, Emotionen auszudrücken ODER persönliche Meinungen, Vorlieben oder subjektive Urteile zu äußern. Auf diese Weise verwendet die GenEvalGPT-Plattform sowohl LLM-Selbstbewertungsmetriken als auch maßgeschneiderte Metriken, um festzustellen, ob der Chatbot anthropisch war. Um diese automatischen Metriken zu generieren, kann das Modell die Interventionen eines Sprechers mit „Richtig“ oder „Falsch“ klassifizieren, je nachdem, ob sie emotionale Belastung oder Subjektivität zeigen. Für die maßgeschneiderten Metriken haben wir die Metrik „Valence Aware Dictionary for sEntiment Reasoning“ (VADER) verwendet.18 für die Sentimentanalyse und einen Subjektivitätswert, der aus der TextBlob-Bibliothek extrahiert wurde19 wertvolle Informationen über das Auftreten emotionaler oder subjektiver Aspekte in den Beiträgen der Sprecher zu geben.
Im Hinblick auf toxisches Verhalten wurden die Interventionen jedes Sprechers mit zwei Tools ausgewertet, um einen Toxizitätswert zu ermitteln: Azure Content Moderator API20 und Detoxify-Bibliothek21. Das erste bietet Punkte für verschiedene Kategorien, die sich auf sexuell explizit oder für Erwachsene, sexuell anzüglich oder reif oder beleidigend beziehen. Das zweite kann mehrere Arten toxischer Kommentare erkennen, wie etwa schwere Toxizität, obszön, Bedrohung, Beleidigung, Identitätsangriff oder sexuell explizit und berücksichtigt auch verschiedene Identitäts-, Religions-, Rassen- oder Behinderungsmerkmale.