Die erste Online-Content-Revolution: Von Websites über Verzeichnisse bis hin zur Suche
Einige von uns erinnern sich noch an den „Dotcom“-Boom von 1999 bis 2001 und die „kambrische Explosion“ von Websites, die sowohl die breite Masse als auch die lange Gruppe von Menschen ansprechen, die nach sehr spezifischen Inhalten suchen. Sie mussten sich nur den Namen merken. Dann kamen Yahoo, AOL und andere Verzeichnisse, in denen Websites um Platzierung und Bewertungen konkurrierten. Innerhalb weniger Jahre wurden diese Verzeichnisse durch Suchmaschinen ersetzt, wobei google praktisch zum Suchmonopol wurde. Google hat den effizientesten Crawling-Bot entwickelt, der jede Website besucht, jedem Link folgt und die Daten kopiert. Anschließend wurden diese Daten verarbeitet und eine Liste der relevantesten Websites für einen bestimmten Satz von Schlüsselwörtern erstellt. Jetzt müssen Sie sich als Benutzer den Domänennamen nicht mehr merken; Sie könnten einfach ein paar Schlüsselwörter eingeben und den entsprechenden Link finden.
Dieser Übergang stellte Verleger und Nachrichtenmacher vor ein großes Dilemma. Aus einer Perspektive wollten Sie in der Suchausgabe zu den Top-Ten-Ergebnissen gehören und alle Ihre Inhalte crawlbar und suchmaschinenoptimiert (SOE) machen. Aus einer anderen Perspektive haben Sie einen erheblichen Teil der Werbeeinnahmen verloren, die durch die Anzeigen auf der Startseite erzielt wurden, sowie die Sichtbarkeit der Anzeigen, die der Benutzer gesehen hätte, wenn er oder sie die Website selbst besucht hätte. Die meisten Verleger und Nachrichtenmacher beschlossen, sich an die neuen Realitäten der Suche anzupassen und vollständig durchsuchbar zu werden. Sogar Premium-Paywall-Inhalte wurden für Suchmaschinen verfügbar, um die Wahrscheinlichkeit zu erhöhen, dass der Inhalt von Crawling-Bots erfasst wird. Dieses neue Paradigma führte auch zur Entstehung neuer Medien, die damit begannen, benutzergenerierte Inhalte in Form von Blogs und Mitwirkendennetzwerken bereitzustellen. Diese neuen Medien könnten nun mit den traditionellen Medien um Traffic und Werbeeinnahmen konkurrieren, während der Großteil der Werbeeinnahmen an die Suchmaschinen ging.
Diese Umverteilung von Macht und Werbeeinnahmen spiegelte sich in den letzten Jahren in den Bewertungen der Verlage wider. Einer der bekanntesten und bedeutendsten Verlage,Forbes wurde 2016 für nur 415 Millionen US-Dollar von der in Hongkong ansässigen Integrated Whale Media Investments übernommenund wird voraussichtlich erneut den Besitzer wechseln rund 800 Millionen US-Dollar in einem Deal unter der Leitung des jungen Technologiegenies und Gründers von Luminar, Austin Russel. Vermögen wurde für ein bloßes Vermögen erworben 150 Millionen US-Dollar vom thailändischen Milliardär Chatchaval Jiaravanonim Jahr 2018. Im Jahr 2013, Jeff Bezos erwarb die Washington Post für 250 Millionen Dollar.
Im Vergleich dazu betrug die Marktkapitalisierung von Google zum Zeitpunkt des Schreibens dieses Artikels 1,66 Milliarden US-Dollar, Facebook wurde für rund 760 Milliarden US-Dollar gehandelt und Twitter wurde für 44 Milliarden Dollar verkauft. Diese Technologieriesen wurden zu den führenden Traffic-Aggregatoren und zogen den Großteil der Werbeeinnahmen an, wodurch sie den Content-Erstellern, die den professionellen Journalismus finanzieren, Werbeeinnahmen entzogen.
Diese unfaire Umverteilung der Werbeeinnahmen und der Wunsch der Verlage, den Aggregator-Traffic zu erhalten, führten dazu, dass sich professionelle Medien auf Suchmaschinenoptimierung (SEO) konzentrierten, auffälligere Titel entwickelten und auf die Wünsche der Verbraucher eingingen, anstatt sich auf eine ausgewogenere und professionellere Berichterstattung zu konzentrieren. Einige Regierungen haben diesen Trend erkannt und versuchen, eine gerechte Verteilung der Werberessourcen durchzusetzen. Zum Beispiel, Kanada hat einen Gesetzentwurf vorgelegt, der die Online-Giganten dazu verpflichtet, die Werbeeinnahmen mit den Verlagen zu teilenein Schritt entschieden dagegen durch die Suchmaschinen und sozialen Netzwerke.
Dilemma der Herausgeber: Sollten Sie zulassen, dass der chatgpt-Bot Ihre Inhalte crawlt?
Zwar gibt es Gerüchte, dass ChatGPT auf Microsoft trainiert wurde Bings Crawling-Bot-Daten und viele andere von Microsoft bereitgestellte Daten, OpenAI hat seinen eigenen Webcrawler ChatGPT Bot vorgestellt als kurzer Hinweis in der Dokumentation. Fast sofort, Am 8. August 2023 berichtete Venture Bryson Masse von VentureBeat dass einige Herausgeber und Ersteller begonnen haben, den Bot zu blockieren, um ihre Inhalte zu schützen. Benj Edwards von ArsTechnica erweiterte die Geschichte.
Es ist kein Geheimnis, dass einige der transformatorbasierten Large Language Models (LLMs) wie ChatGPT 4.0 so gut wurden, dass sie begannen, Menschen bei vielen Aufgaben, einschließlich einiger analytischer Aufgaben, zu übertreffen. Diese Modelle sind noch lange nicht perfekt und die meisten hochwertigen Verlage, darunter Forbes.com und Nature Publishing Group, haben die Verwendung generativer Tools für die Inhaltserstellung durch die Einführung strenger Richtlinien verboten.
Ich habe zuvor einen Artikel geschrieben, in dem ich erklärt habe, dass Verlage mit riesigen Mengen an proprietären Inhalten die wahrscheinlichsten Nutznießer der generativen KI-Revolution sind, da sie möglicherweise in der Lage sind, ihre eigenen vertrauenswürdigen Chatbots zu entwickeln oder die Inhalte an generative KI-Unternehmen zu lizenzieren. Wenn sie jedoch zulassen, dass ihre Inhalte von den Crawler-Bots der generativen KI-Unternehmen ohne entsprechende Wasserzeichen und Urheberrechtshinweise „gecrawlt“ und verarbeitet werden, verlieren sie diesen Vorteil wahrscheinlich. Da die generativen KI-Systeme jetzt besser interpretierbar sind und zur Primärquelle führen können, verringert sich gleichzeitig die Wahrscheinlichkeit, dass auf den Inhalt zugegriffen wird, wenn nicht gecrawlt wird.
Dies ist das neue Dilemma, mit dem die meisten Verlage früher oder später konfrontiert sein werden. An diesem Punkt ist es sicherer, die Paywall-Inhalte vor dem Crawlen zu schützen und nur den Titel und die Schlüsselwörter für die Crawler-Bots zugänglich zu machen und in interne generative KI-Funktionen zu investieren.
Es ist auch wichtig zu beachten, dass ein Großteil der veröffentlichten Inhalte bereits von Suchmaschinen gecrawlt wurde und möglicherweise für das Training generativer KI-Systeme wiederverwendet wird. Beispielsweise hat Google in investiert Vollständige Digitalisierung von Büchern und hat das gesamte Internet durchsucht. Werden diese Bücher und diese gecrawlten Inhalte für die Ausbildung der LLMs verwendet? Es müssen umfangreiche Tests durchgeführt werden, um festzustellen, ob dieser Inhalt bereits von den führenden KI-Spielern verwendet wurde.
Wird generative KI zu einem weiteren Rückgang des professionellen Journalismus führen?
Bei Verlagen und Nachrichtenmachern, bei denen der Einsatz generativer Tools erlaubt oder sogar gefördert wird, ist natürlich mit einem gewissen Qualitätsverlust der Inhalte zu rechnen. Es gibt bereits mehrere Spam-Herausgeber, die dies tun und die Suchmaschinen oft verwirren. Allerdings sollten wir den weiteren potenziellen Verlust von Werbeeinnahmen nicht unterschätzen. Seriöse Verlage benötigen einen stetigen Strom an Werbe- und Abonnementeinnahmen, um ihre hohen redaktionellen Standards aufrechtzuerhalten. Hier könnten Gesetzgeber ins Spiel kommen, um sicherzustellen, dass unabhängige Medien unterstützt und professioneller Journalismus gefördert werden. Andernfalls werden wir wahrscheinlich erleben, dass das Internet mit KI-generierten Inhalten verunreinigt wird, die von den LLMs produziert werden, die professionelle Verlage enttarnen.
Folge mir auf Twitter oder LinkedIn. Kasse Mein Webseite oder einige meiner anderen Arbeiten Hier.