Wie wiederholt von Twitter-CEO Elon Musk versprochen, hat Twitter es geschafft geöffnet einen Teil seines Quellcodes zur öffentlichen Einsicht, einschließlich des Algorithmus, den es verwendet, um Tweets in den Timelines der Benutzer zu empfehlen.
Auf GitHub veröffentlichte Twitter zwei Lagerstätten enthält Code für viele Teile, die das soziale Netzwerk zum Ticken bringen, einschließlich des Mechanismus, den Twitter verwendet, um die Tweets zu steuern, die Benutzer auf der For You-Timeline sehen. In einem Blogbeitrag bezeichnete Twitter den Schritt als „ersten Schritt in die Zukunft[ing] transparenter“ und gleichzeitig „[preventing] risk“ für Twitter selbst und Personen auf der Plattform.
Auf einer Twitter Spaces-Sitzung stellte Musk heute klar:
„Unsere erste Veröffentlichung des sogenannten Algorithmus wird ziemlich peinlich sein, und die Leute werden viele Fehler finden, aber wir werden sie sehr schnell beheben“, sagte Musk. „Selbst wenn Sie mit etwas nicht einverstanden sind, wissen Sie zumindest, warum es da ist und dass Sie nicht heimlich manipuliert werden … Das Analoge hier, das wir anstreben, ist das großartige Beispiel für Linux als ein Open-Source-Betriebssystem … Man kann theoretisch viele Exploits für Linux entdecken. In Wirklichkeit identifiziert und behebt die Community diese Exploits.“
Was den zweiten Punkt im Blogbeitrag zur Risikovermeidung betrifft, so enthalten die Open-Source-Veröffentlichungen weder den Code, der die Anzeigenempfehlungen von Twitter unterstützt, noch die Daten, die zum Trainieren des Empfehlungsalgorithmus von Twitter verwendet werden. Darüber hinaus enthalten sie einige Anweisungen zur Überprüfung oder tatsächlichen Verwendung des Codes, was die Idee verstärkt, dass die Veröffentlichungen streng auf Entwickler ausgerichtet sind.
„[We excluded] Jeder Code, der die Sicherheit und Privatsphäre der Benutzer oder die Fähigkeit, unsere Plattform vor schlechten Akteuren zu schützen, beeinträchtigen würde, einschließlich der Untergrabung unserer Bemühungen zur Bekämpfung der sexuellen Ausbeutung und Manipulation von Kindern“, schrieb Twitter. Es kommt nur ein bisschen gemischtes Messaging Wochen danach Twitter gefeuert viel seiner ethischen KI- und Vertrauens- und Sicherheitsmitarbeiter, die neben anderen Aufgaben im Zusammenhang mit der Benutzersicherheit für die Inhaltsmoderation verantwortlich waren. Aber das Unternehmen besteht dennoch darauf, dass es „[took] Schritte, um sicherzustellen, dass die Sicherheit und Privatsphäre der Benutzer geschützt sind“ mit der heutigen Code-Veröffentlichung.
Twitter sagt, dass es an Tools arbeitet, um Codevorschläge aus der Community zu verwalten und Änderungen mit seinem internen Repository zu synchronisieren. Vermutlich werden diese zu einem späteren Zeitpunkt verfügbar sein – derzeit gibt es keine Anzeichen dafür.
„Wir werden nach Vorschlägen suchen, nicht nur zu Fehlern, sondern auch dazu, wie der Algorithmus funktionieren soll“, sagte Musk in der Spaces-Sitzung. „Es wird ein sich entwickelnder Prozess sein. Ich würde nicht erwarten, dass es sich um eine ununterbrochene Aufwärtsbewegung handelt … aber wir sind sehr offen für Dinge, die das Benutzererlebnis verbessern würden.“
Auf den ersten Blick ist der Algorithmus ziemlich komplex – aber aus technischer Sicht nicht unbedingt überraschend. Es besteht aus mehreren Modellen, darunter ein Modell zur Erkennung von „nicht sicher für den Arbeitsplatz“ oder missbräuchlichen Inhalten, zur Bestimmung der Wahrscheinlichkeit, dass ein Twitter-Benutzer mit einem anderen Benutzer interagiert, und zur Berechnung des „Rufs“ eines Twitter-Benutzers. (Es ist unklar, worauf sich „Reputation“ genau bezieht; die High-Level-Dokumentation ist darüber nicht klar.) Mehrere neuronale Netzwerke sind dafür verantwortlich, die Tweets zu klassifizieren und Accounts zu empfehlen, denen man folgen soll, während eine Filterkomponente Tweets verbirgt, um – verzeihen Sie die Jargon – „Unterstützung der Einhaltung gesetzlicher Vorschriften, Verbesserung der Produktqualität, Steigerung des Vertrauens der Benutzer, Schutz des Umsatzes durch die Verwendung von harter Filterung, sichtbarer Produktbehandlung und grobkörnigem Downranking.“
In einem Ingenieurwesen BlogeintragTwitter enthüllt mehr über die Empfehlungspipeline, die angeblich etwa fünf Milliarden Mal pro Tag läuft:
„Wir versuchen, die besten 1.500 Tweets aus einem Pool von Hunderten von Millionen zu extrahieren … Heute besteht die For You-Timeline zu 50 % aus [tweets from people you don’t follow] und 50% [tweets from people you follow] im Durchschnitt, obwohl dies von Benutzer zu Benutzer variieren kann“, schrieb Twitter. „Rangfolge [tweets] wird mit einem neuronalen Netzwerk mit ~48 Millionen Parametern erreicht, das kontinuierlich auf Tweet-Interaktionen trainiert wird, um für positives Engagement (z. B. Likes, Retweets und Antworten) zu optimieren.“
Twitter-Nutzer sehen natürlich nicht die vollen 1.500 Tweets. Sie werden nach Inhaltsbeschränkungen und anderen Kriterien und Faktoren gefiltert, die von den Modellen berücksichtigt werden, z. B. ob Tweets „negatives Feedback“ haben und ob sie hauptsächlich von demselben Twitter-Benutzer stammen oder von Benutzern, die blockiert oder stummgeschaltet wurden.
Gizmodo Anmerkungen Eine Sache, die anscheinend nicht veröffentlicht wurde, ist die Liste der VIPs, die Twitter an die Benutzer weiterleitet. Diese Woche, Platformer gemeldet dass Twitter eine rotierende Liste bemerkenswerter Nutzer hat, darunter YouTuber Mr. Beast und Daily Wire-Gründer Ben Shapiro, die es verwendet, um Änderungen am Empfehlungsalgorithmus zu überwachen, indem es die Sichtbarkeit dieser „Power-User“ scheinbar nach Belieben erhöht.
Es gibt weitere Hinweise darauf, dass der Algorithmus Tweets je nach Quelle unterschiedlich behandelt. Die Forscherin Jane Manchun Wong stellte fest, dass der Algorithmus von Twitter speziell kennzeichnet, ob der Tweet-Autor Elon Musk ist, und andere Etiketten hat, die angeben, ob der Autor ein „Power-User“ ist und ob er ein Republikaner oder ein Demokrat ist.
Während der Spaces-Sitzung heute Nachmittag sagte ein Twitter-Ingenieur, dass die Labels nur für Metriken verwendet würden. Aber Musk – der sagte, dass er sich der Etiketten bis heute nicht bewusst war – sagte, dass sie nicht dort sein sollten.
„Es sollte definitiv nicht sein, die Menschen in Republikaner und Demokraten aufzuteilen, das macht keinen Sinn“, sagte Musk.
Die Veröffentlichung des Quellcodes erfolgt nach mehreren Kontroversen in den letzten Monaten, bei denen es um Optimierungen am Empfehlungsalgorithmus von Twitter ging. Entsprechend PlattformerIm Februar forderte Musk die Ingenieure von Twitter auf, den Algorithmus neu zu konfigurieren, damit seine Tweets mehr Aufmerksamkeit erregen würden. (Twitter hat diese Änderung später zurückgenommen – zumindest etwas.) Im November begann Twitter, Benutzern mehr Tweets von Leuten zu zeigen, denen sie nicht folgen – ein Schritt, den die Plattform vor der Übernahme von Musk versuchte, aber später nach einer Gegenreaktion von Benutzern wieder rückgängig machte.