Die Bedrohung von Nachrichtenverlegern durch ChatGPT ist größer denn je, da das Unternehmen sich darauf vorbereitet, mit dem Lesen aktueller neuer Geschichten zu beginnen – anstatt sich auf eine Datenbank zu verlassen, die seit zwei Jahren nicht aktualisiert wurde.
Das Vereinigte Königreich Unabhängige Verlagsallianz fordert seine Mitglieder auf, den Crawling-Zugriff für OpenAI und google so schnell wie möglich zu sperren, während ein KI-Stratege gegenüber Press Gazette sagte, es sei eine „schwierige Zeit“ für Verlage – insbesondere, wenn von ihnen erwartet wird, dass sie sich von jedem generativen KI-Unternehmen einzeln abmelden.
Bisher konnte OpenAIs ChatGPT nur Informationen bis September 2021 nutzen, dem Stichtag für seine Trainingsdatenbank.
Aber zahlende ChatGPT Plus- und Enterprise-Benutzer können jetzt „aktuelle und maßgebliche Informationen“ in Antworten vom Chatbot erhalten, und dies wird „bald“ auf alle Benutzer ausgeweitet. OpenAI versprach außerdem, „direkte Links zu Quellen“ bereitzustellen.
Die Änderung bedeutet, dass Benutzer ChatGPT-Fragen zu aktuellen Themen stellen können, wobei die Antworten wahrscheinlich auf Inhalte von Nachrichtenverlegern aus der ganzen Welt basieren, die Traffic verlieren, wenn die Leute herausfinden, was sie wissen möchten, ohne jemals zur Originalquelle gehen zu müssen . Dies könnte eine Fortsetzung des Anstiegs der „Zero-Click-Suchen“ sein, bei denen Suchmaschinen-Ergebnisseiten den Benutzern direkt die gewünschten Antworten liefern, ohne dass sie sich zu Artikeln durchklicken müssen, von denen die Informationen stammen könnten.
Der Schritt erfolgt, da Verlage weiterhin mit der Frage ringen, ob sie den ChatGPT-Bot und gleichwertige Crawler von Google und Bing daran hindern sollen, ihre Inhalte zum Trainieren von Datensätzen zu verwenden.
OpenAI erklärte den Verlagen erstmals im August, wie sie sich vom Scraping abmelden können, während in den letzten Wochen sowohl Google als auch Bing den Verlagen erklärt haben, wie sie sich auf ähnliche Weise vom Trawling abmelden können – aber vor allem nicht von ihren Suchergebnissen blockiert werden.
Inhalte unserer Partner
Google und Bing ermöglichen es Verlagen, sich vom KI-Training abzumelden, ohne bei der Suche Einbußen hinnehmen zu müssen
Am 22. September kam Bing als Erster und teilte den Verlegern mit, dass sie neue Möglichkeiten dafür geschaffen hätten „haben im KI-Zeitalter eine größere Kontrolle darüber, wie ihre Inhalte verwendet werden“. Die zu Microsoft gehörende Suchmaschine Bing hat den KI-Bot Bing Chat in die Suchergebnisse aufgenommen und nutzt dabei die Technologie von OpenAI unter einem Mehrjährige Investition in Milliardenhöhe. Die Antworten von Bing Chat enthalten Links zu Quellen – viele davon scheinen in den bisherigen Anfragen von Press Gazette zu Microsofts Nachrichtenaggregator MSN zu führen.
Wenn Herausgeber keine Maßnahmen ergreifen, werden ihre Inhalte weiterhin als Quellen für Bing Chat verwendet. Inhalte mit dem Tag „NOCACHE“ können in Bing-Chat-Antworten enthalten sein, es werden jedoch nur URLs, Snippets und Titel angezeigt und beim Training des Modells verwendet. Mit NOARCHIVE gekennzeichnete Inhalte werden nicht eingebunden, verlinkt oder für Schulungszwecke verwendet.
Bing fügte hinzu: „Wir haben auch von Verlagen gehört, dass sie diese Wahlmöglichkeiten nutzen wollen, ohne dass dies Auswirkungen darauf hat, wie Bing-Benutzer Webinhalte auf der Suchergebnisseite von Bing finden können.“ Wir können den Verlagen versichern, dass Inhalte mit dem NOCACHE-Tag oder NOARCHIVE-Tag weiterhin in unseren Suchergebnissen erscheinen.“
In der Zwischenzeit Google räumte eine Woche später ein, dass die Verlage es erzählt hätten „dass sie eine größere Auswahl und Kontrolle darüber wünschen, wie ihre Inhalte für neue Anwendungsfälle der generativen KI verwendet werden“.
Als Reaktion darauf hat das Unternehmen Google-Extended entwickelt, ein Tool, mit dem Verlage den Zugriff auf Inhalte auf ihren Websites kontrollieren und entscheiden können, ob sie Google Bard, sein KI-gesteuertes Chat-Tool, „zur Verbesserung“ beitragen.
Danielle Romain, Vizepräsidentin für Vertrauen bei Google, betonte wiederholt den Wert der Technologieplattform, wenn Verlage die Nutzung ihrer Inhalte zulassen, und schrieb: „Durch die Verwendung von Google-Extended zur Kontrolle des Zugriffs auf Inhalte auf einer Website kann ein Website-Administrator entscheiden, ob er dieser KI helfen möchte.“ Modelle werden mit der Zeit genauer und leistungsfähiger.“
„Warum sollten sie es umsonst nehmen?“
Die britische Independent Publishers Alliance hat ihren Mitgliedern empfohlen, ChatGPT so schnell wie möglich daran zu hindern, ihre Websites zu crawlen.
Zu den Gründen gehören die Kosten – wenn die Anzahl der Bot-Besuche auf der Website eines kleineren Verlags deutlich zunimmt, könnten diese in eine höhere Hosting-Klasse gezwungen werden – und die Verhinderung von Plagiaten, die aus der Wiedergewinnung von Inhalten durch generative KI-Tools resultieren können.
Die Allianz ist außerdem davon überzeugt, dass die Verhandlungsmacht der Verlage, möglicherweise für ihre Inhalte bezahlt zu werden, größer ist, wenn sie sich abmelden – und dass die Erlaubnis der kostenlosen Nutzung in künftigen rechtlichen Schritten oder Lizenzverhandlungen gegen sie verwendet werden könnte.
Chris Dicker, Vorstandsmitglied der Independent Publishers Alliance, sagte gegenüber Press Gazette: „Niemand generiert derzeit Traffic, wenn er es erlaubt. Warum sollten sie es also kostenlos und ohne Gegenleistung nehmen?“
„Wir glauben, dass die Möglichkeit, sie zu blockieren (oder ein Signal, um zu sagen, dass sie unsere Inhalte nicht verwenden sollten), zu einem späteren Zeitpunkt gegen Verlage genutzt wird, wenn die Regulierungsbehörden eingreifen – sie könnten sagen, warum wir für diese Inhalte bezahlen sollten, wenn die Verlage dazu bereit sind.“ um es uns kostenlos zu geben? Dieses Argument lautet im Grunde: „Wir haben jedem die Möglichkeit gegeben, Nein zur Nutzung seiner Inhalte zu sagen, und die Verlage haben nichts unternommen.“
Dicker, Geschäftsführer der Tech-Website Vertrauenswürdige Bewertungen, fügte hinzu: „Verleger waren schon früher bei praktisch allen neuen großen Technologieunternehmen hier. Sie versuchen, es so attraktiv wie möglich zu gestalten, mit ihnen in Kontakt zu treten. Normalerweise schließen sie Direktverträge mit einigen wenigen größeren Verlagen ab, damit diese tun können, was sie wollen. Die anderen folgen und dann werden ihnen langsam, aber sicher immer mehr Verlage weggenommen, bis es zu spät ist und am Ende kommt es zu einer Situation wie dem erheblichen Rückgang des Facebook-Verkehrs in diesem Jahr oder der Zunahme von Null-Klick-Suchen in der Suche.
„Die Strategie, die sie alle anwenden, heißt ‚wie man einen Frosch kocht‘: Man kann einen Frosch nicht einfach in kochendes Wasser legen, sonst springt er heraus, sondern man legt ihn in schön warmes Wasser, das ihm schmeckt, und dreht dann die Hitze auf bis es zu spät ist.“
Dicker sagte, jetzt sei ein entscheidender Zeitpunkt, um diese Entscheidung zu treffen: „Wenn sich alle Websites dafür entscheiden würden, OpenAI und/oder Bard zu blockieren, dann würde ihr Wissen im Jahr 2021 stecken bleiben und sie müssten an einen Tisch kommen und mit den Herausgebern über die Nutzung von verhandeln.“ deren Inhalt. Die Tatsache, dass ChatGPT im Begriff ist, seine Datenbank für alle Benutzer auf den neuesten Stand zu bringen, macht es für Publisher jetzt zu einem kritischen Zeitpunkt, sich hier durchzusetzen.“
Allerdings sind sich nicht alle Verlagsgremien einig: Sajeeda Merali, Geschäftsführerin der Professional Publishers Association, die große und kleine spezialisierte Medienunternehmen vertritt, sagte im August gegenüber Press Gazette, dass ein Opt-out Nachteile habe.
„[If] „ChatGPT soll weiter wachsen und ein Einstiegspunkt für digitale Informationen werden, so wie es derzeit die Google-Suche ist, dann ist ein Opt-out keine wirklich praktikable Option“, sagte sie.
„Was wir nicht wollen, ist, Hindernisse bei der Aushandlung der richtigen Bedingungen mit ChatGPT zu schaffen, und wir wollen auf keinen Fall, dass sie sagen können, dass Verlage letztendlich entscheiden können, zu tun, was sie wollen.“
Es ist „unvermeidlich“, dass Inhalte gecrawlt und daraus gelernt werden
Die Vor- und Nachteile des Blockierens waren diskutiert auf dem Digiday Publishing Summit in Florida Im vergangenen Monat. Ein Verlagsleiter sagte, er habe sich „frühzeitig“ entschieden, sich abzumelden, sei sich aber jetzt nicht sicher: „Ich habe mich gedemütigt und dachte, ich veröffentliche alle meine Inhalte auf acht verschiedenen Syndication-Apps und Websites, wo sie auch gecrawlt werden können.“ … Das ist bei anderen so auffindbar Orte, die sich nicht auf der Seite befinden, auf der ich diesen Blocker eingesetzt habe, sind meiner Meinung nach eine Art vergebliche Anstrengung meinerseits. Es ist unvermeidlich, dass dieses Zeug aufgenommen, gecrawlt und daraus gelernt wird.“
Sie fügten jedoch hinzu, dass sich die Entscheidung in zukünftigen Verhandlungen als Ausgangspunkt für die unvermeidlichen Verhandlungen erweisen könnte, die wir als Herausgeber mit OpenAI und anderen Unternehmen führen werden. Wir können das als Hebel nutzen und sagen: Wir werden es abschaffen, wenn wir einen Deal oder eine Einigung erzielen können.“
Luke Budka, KI-Stratege bei einer B2B-Agentur Definitionsagte gegenüber Press Gazette, es sei eine „schwierige Zeit für Verlage, wenn es um Gen-KI geht – viele bewegliche Teile und einfache Möglichkeiten, etwas völlig falsch zu machen.“
„Aus Sicht des Crawlings können Sie beispielsweise dem Googlebot erlauben, Ihre Website zu crawlen, aber Google-Extended nicht zulassen, den Teil des Googlebots, der zum Scrapen von Informationen verwendet wird, um Bard zu trainieren. Ich würde 10 £ wetten, dass mehrere Verlage versehentlich den Googlebot blockieren und zusehen, wie ihre Websites ganz aus den Suchergebnissen verschwinden, um das Sammeln von Gen-KI-Inhalten zu verhindern.
„Wenn Sie nicht dabei helfen möchten, die generativen KI-Grundlagenmodelle von Microsoft zu trainieren, müssen Sie Ihre Inhalte jetzt mit NOARCHIVE kennzeichnen. Und separat dazu müssen Sie OpenAI (GPTBot) und Anthropic separat blockieren.
„Einige große Namen haben schnell gehandelt, um OpenAIs ChatGPT zu blockieren, darunter die New York Times (was kaum überraschend ist, da sie sie verklagen), Reuters, Bloomberg, CNBC und The Athletic; ABC hat GPTBot blockiert und hat Google-Extended bereits verboten.“
Große Nachrichtennamen blockieren GPTBot
Seit August, 44 % von 1.123 in einer kontinuierlichen Umfrage überwachten Nachrichtenverlagen durch das Open-Source-Archivierungssystem homepages.news haben mithilfe von robots.txt – dem Code, der Trawlern mitteilt, auf welche Teile einer Website sie zugreifen dürfen – ChatGPTs Trawler blockiert.
Zu den britischen Verlagen, die laut homepages.news GPTBot blockiert haben, gehören Daily Mail, The Sun, The Guardian, Belfast Telegraph, Daily Herald, Newsquest’s Daily Echo, The Economist und The National.
The Daily Mirror, The Times, The Telegraph, The Spectator, Daily Record, BBC, Belfast News Letter, Bellingcat, Evening Standard, The Independent, The i, New Scientist, New Statesman, Reuters, The Scotsman und Unherd erlauben ihre Websites weiterhin gefischt werden.
In den USA sind große Player wie ABC News, Axios, New York Times und der Schwestertitel The Athletic, Bloomberg, Boston Globe, CBS News, CNBC, CNN, New York Daily News, Deadline, E!, ESPN, Gawker und The Hollywood Reporter vertreten , Los Angeles Times, NBC News, New Yorker, Semafor, Slate, USA Today, Wall Street Journal, Washington Post und viele lokale Titel haben GPTBot blockiert.
Ein separater Tracker der Independent Publishers Alliance für 4.919 Domains, darunter auch kleinere Websites im Vereinigten Königreich, zeigt, dass 595 dieser Websites (12 %) am Sonntag, dem 1. Oktober, robots.txt für ChatGPT blockierten. Die neuesten Neuzugänge waren FT, The Sun und i, die alle den Bot am Freitag blockierten.
Von den 595 Domains, die sich von ChatGPT abgemeldet haben, blockiert eine Website bisher auch das Training für Google Bard: die Tech-Site Venture Beat.
Budka stellte fest, dass es keine endgültige Antwort darauf gibt, ob es für Verlage besser ist, alle KI-Trainings-Bots zu blockieren oder nicht.
„Viele Interessenvertreter haben bereits ausführlich darüber diskutiert, ob es für Nachrichten-Websites mehr oder weniger vorteilhaft ist, zuzulassen, dass ihre Daten für Schulungszwecke genutzt werden“, sagte er.
„Einerseits sind sie der Meinung, dass sie für die Bereitstellung von Trainingsdaten entlohnt werden sollten (und einige vermitteln direkte Geschäfte, z. B. AP), aber andererseits können sie es sich, ähnlich wie bei der klassischen Google-Suche, leisten, von der KI ausgeschlossen zu werden. generierte Ergebnisse, da diese Ergebnisse beginnen, einen größeren Teil der Gesellschaft anzutreiben?
„In jedem Fall werden Verlage einen Fehler machen, wenn sie jede einzelne KI-Generation, die sie blockieren möchten, zu ihren Roboterdateien hinzufügen müssen – es muss eine Möglichkeit geben, alle einfach zu verbieten. Aber dafür müssen die Regierungen ihre Taten in die Tat umsetzen – vielleicht sehen wir das ja noch Novembers britische KI-Ethikkonferenz in Bletchley Park? Ich würde deinen Atem nicht anhalten.“
Email [email protected] um auf Fehler hinzuweisen, Story-Tipps zu geben oder einen Brief zur Veröffentlichung auf unserem „Letters Page“-Blog einzusenden