Die Sprache der Wissenschaft verändert sich ständig. Im Laufe der letzten zehn Jahre sind zahlreiche Wörter und Ausdrücke aus der Versenkung in den allgemeinen Sprachgebrauch der Wissenschaft aufgetaucht. Dazu gehören Zika, Ebola, chatgpt und so weiter – Wörter, die das Auf und Ab der wissenschaftlichen Forschung sowie allgemeinere Ereignisse und Trends in Wissenschaft und Gesellschaft widerspiegeln.
Diese Veränderungen spiegeln sich in den Aufsätzen, Rezensionen und Artikeln wider, die Wissenschaftler ständig verfassen. Tatsächlich haben verschiedene Forscher versucht, die Entwicklung der Wissenschaft anhand der Veränderungen in ihrer Sprache abzubilden.
Und das wirft eine interessante Frage über die Auswirkungen künstlicher Intelligenz auf die Wissenschaft auf. Seit der öffentlichen Einführung von ChatGPT im November 2022 können Wissenschaftler mithilfe von Large Language Models alle von ihnen verfassten wissenschaftlichen Arbeiten überarbeiten, bearbeiten und gelegentlich von Grund auf neu schreiben. Aber wie häufig sie diese Art der KI-Unterstützung tatsächlich nutzen, ist unbekannt.
Historischer Wandel
Hier kommen Dmitry Kobak vom Hertie-Institut für KI in der Hirngesundheit in Tübingen und seine Kollegen ins Spiel, die seit 2022 einen Weg gefunden haben, den Einfluss von KI-Systemen auf die wissenschaftliche Literatur zu messen und ihn mit dem Einfluss anderer wichtiger Ereignisse in der Wissenschaft zu vergleichen. Sie sagen, dass große Sprachmodelle den wissenschaftlichen Diskurs in einem in der Geschichte beispiellosen Ausmaß verändern.
Kobak und seine Kollegen luden zunächst die Abstracts von über 14 Millionen wissenschaftlichen Artikeln herunter, die seit 2010 in der biomedizinischen Datenbank PubMed veröffentlicht wurden. Anschließend bereinigten sie die Datenbank von häufig vorkommenden Wörtern und Ausdrücken, die nichts mit den Arbeiten der Autoren zu tun haben, wie etwa „Copyright“ oder „Wie zitiere ich diesen Artikel?“. Anschließend berechneten sie, wie oft jedes Wort mit mehr als drei Buchstaben pro Jahr vorkam. Schließlich untersuchten sie die 800 am häufigsten vorkommenden Wörter und wie sich ihre Häufigkeit jedes Jahr änderte.
Die Ergebnisse zeigten sofort einige offensichtliche Trends in der Wissenschaft. Zum Beispiel die Häufigkeit des Wortes Ebola erreichte 2015 seinen Höhepunkt und Zika im Jahr 2017. Eine der größten Veränderungen ereignete sich im Jahr 2020 mit einem enormen Anstieg der Verwendung von Wörtern wie Ausgangssperre, Pandemie, Atemwege Und Remdesivir während des COVID-19-Ausbruchs, einem Ereignis, das allgemein als einer der größten Auswirkungen auf das wissenschaftliche Publizieren in der Geschichte gilt.
Doch zur Überraschung der Forscher kam es im Jahr 2024 zu einer noch größeren Veränderung mit einer Zunahme von Wörtern wie vertieft sich, entscheidend, wichtig Und Potenzial. Interessanterweise handelt es sich hierbei nicht um Wörter, die sich auf den wissenschaftlichen Inhalt einer Arbeit beziehen, sondern auf den Schreibstil.
Tatsächlich vermuten die Forscher, dass dies genau die Art von Wörtern ist, die von großen Sprachmodellen bevorzugt werden. „Der beispiellose Anstieg von Wörtern mit überflüssigem Stil im Jahr 2024 ermöglicht es uns, sie als Marker für die Verwendung von ChatGPT zu verwenden“, sagen Kobak und Co.
Und die Veränderung war tiefgreifend. „Nachdem ChatGPT verfügbar wurde, hat die Häufigkeit von Hunderten von Wörtern schlagartig zugenommen“, sagen sie.
Englischhilfe
Kobak und Kollegen haben eine Untergrenze für die Anzahl der Arbeiten festgelegt, die von Large Language Models beeinflusst wurden. Die Daten deuten darauf hin, dass mindestens 10 Prozent der Arbeiten auf PubMed im Jahr 2024 auf diese Weise beeinflusst wurden. „Da derzeit jährlich etwa 1,5 Millionen Arbeiten in PubMed indexiert werden, bedeutet dies, dass LLMs beim Verfassen von mindestens 150.000 Arbeiten pro Jahr helfen“, schlussfolgern die Forscher.
Das Team stellte fest, dass KI-Unterstützung in Artikeln aus Ländern, in denen Englisch nicht die Muttersprache war, häufiger vorkam. Das könnte darauf hindeuten, dass Nicht-Englischsprachige KI-Unterstützung nutzen, um Chancengleichheit beim wissenschaftlichen Schreiben herzustellen. Oder es könnte bedeuten, dass Englischsprachige KI-Unterstützung genauso häufig nutzen, aber besser darin sind, deren Einfluss vor der Veröffentlichung aus ihren Artikeln zu entfernen. So oder so scheint die Verwendung von LLMs weit verbreitet zu sein.
Das ist eine interessante Arbeit, die ein seltenes Licht auf die Art und Weise wirft, wie KI nicht nur die Art und Weise verändert, wie Wissenschaftler schreiben, sondern auch, wie Wissenschaft betrieben wird. „Die Auswirkungen der Nutzung des LLM auf das wissenschaftliche Schreiben sind wirklich beispiellos und stellen sogar die drastischen Veränderungen des Wortschatzes in den Schatten, die durch die Covid-19-Pandemie verursacht wurden“, sagen Kobak und Co.
Was wir natürlich brauchen, ist ein klareres Verständnis und eine Anerkennung dieser Trends, damit die wissenschaftliche Gemeinschaft im besten Interesse der Wissenschaftler, der wissenschaftlichen Verleger und der Gesellschaft insgesamt, von der die Wissenschaft profitieren soll, Leitplanken für die Nutzung von LL.M. errichten kann.
Diese Arbeit scheint ein wichtiger Schritt in diese Richtung zu sein. Dennoch lässt die Geschwindigkeit der Veränderungen in der Nutzung von LLM darauf schließen, dass Wissenschaftler und Verlage schnell handeln müssen, um überhaupt mithalten zu können. Und wenn man das wissenschaftliche Publizieren als Maßstab nimmt, stehen wahrscheinlich auch andere Bereiche des Publizierens vor ähnlichen Herausforderungen.
Ref: Eintauchen in die Verwendung von ChatGPT in akademischen Texten anhand von überflüssigem Vokabular: arxiv.org/abs/2406.07016