Start ChatGPT Überwachung von KI-modifizierten Inhalten im großen Maßstab: Auswirkungen von ChatGPT auf Peer-Reviews...

Überwachung von KI-modifizierten Inhalten im großen Maßstab: Auswirkungen von ChatGPT auf Peer-Reviews bei KI-Konferenzen

Von

Juli 22, 2024

Screenshot 2024 07 21 At 8.16.28 Pm — https://openreview.net/pdf?id=bX3J7ho18S

Large Language Models (LLMs) wurden in verschiedenen Bereichen wie globalen Medien, Wissenschaft und Bildung ausführlich diskutiert. Trotz dieses Schwerpunkts ist es immer noch schwierig, genau zu messen, wie häufig LLMs verwendet werden, oder die Auswirkungen erstellter Texte auf Informationsökosysteme zu beurteilen. Eine erhebliche Herausforderung besteht darin, dass es immer schwieriger wird, von LLMs erstellte Texte von von Menschen verfassten Texten zu unterscheiden. Es besteht die Möglichkeit, dass nicht unterstützte, von KI generierte Sprache als zuverlässige, beweisbasierte Texte missverstanden wird, da Studien gezeigt haben, dass die Fähigkeit des Menschen, von KI generierte Inhalte von von Menschen verfassten Informationen zu unterscheiden, kaum besser ist als zufälliges Raten.

In der wissenschaftlichen Forschung entgehen von chatgpt generierte medizinische Abstracts häufig der Erkennung durch KI-Systeme und sogar durch Spezialisten. Es besteht die Möglichkeit falscher Informationen, da in den Medien mehr als 700 nicht vertrauenswürdige, von KI generierte Nachrichten-Websites gefunden wurden. Individuell betrachtet kann von KI generierter Text mit von Menschen geschriebenem Inhalt identisch sein, doch Trends auf Korpusebene zeigen Abweichungen. Bei der Analyse einzelner Fälle können Verzerrungen durch die konstante Ausgabe von LLMs subtil und unmerklich verstärkt werden. Untersuchungen haben gezeigt, dass die Verwendung eines einzelnen Algorithmus zur Auswahl von Stellen zu einheitlicheren Ergebnissen führen kann.

Um diese Probleme zu überwinden, sind effektive Techniken zur Bewertung der LLM-Ausgabe in größerem Maßstab erforderlich. Der Ansatz der „distributionalen GPT-Quantifizierung“ ist eine vorgeschlagene Technik, da er den Prozentsatz des von KI generierten Inhalts in einem Korpus berechnet, ohne einzelne Beispiele zu untersuchen. Dieser Ansatz kombiniert die Maximum-Likelihood-Schätzung für Texte unklarer Herkunft mit Referenztexten, von denen bekannt ist, dass sie von Menschen oder KI erstellt wurden. Im Vergleich zu vorhandenen KI-Texterkennungstechniken verringert diese Methode die Schätzfehler erheblich und ist rechnerisch weitaus effizienter.

Siehe auch ChatGPT ist überall in diesem Bezirk. So sieht es aus

Ergebnisse empirischer Forschung deuten darauf hin, dass mehrere Adjektive in KI-generierten Texten häufiger verwendet werden als in von Menschen erstellten Texten. Dies zeigt sich an der plötzlichen Zunahme ihrer Verwendungshäufigkeit in aktuellen ICLR-Berichten. Dies ermöglicht es Forschern, konsistente und auffällige Ergebnisse zu erzielen, indem sie ihren Rahmen für die Wahrscheinlichkeitsverteilung parametrisieren. Ähnliche Ergebnisse sind bei der Verwendung von Verben, nicht-technischen Substantiven und Adverbien möglich.

Zur Prüfung des Frameworks wurde eine umfassende Fallstudie von Schriften verwendet, die als Rezensionen bei renommierten KI-Konferenzen und -Publikationen eingereicht wurden. Den Ergebnissen zufolge könnte ein kleiner, aber bemerkenswerter Prozentsatz der Bewertungen, die nach der Veröffentlichung von ChatGPT veröffentlicht wurden, erhebliche KI-Modifikationen enthalten haben. Bewertungen, die bei den Publikationen der Nature-Familie eingereicht wurden, zeigten diese Tendenz nicht. Die Studie untersuchte auch, wie häufig und in welchen Situationen KI-generiertes Material auftaucht und wie es sich von Rezensionen unterscheidet, die von Experten auf Korpusebene verfasst wurden.

Das Stanford-Forschungsteam hat seine wichtigsten Beiträge wie folgt zusammengefasst.

Es wurde eine einfache und effektive Methode vorgeschlagen, um den Prozentsatz von Text in einem großen Datensatz zu berechnen, der erheblich verändert oder von KI erstellt wurde. Dieser Ansatz nutzt historische Daten, die von KI erstellt oder von menschlichen Spezialisten geschrieben wurden. Mithilfe dieser Daten wurde eine Maximum-Likelihood-Methode verwendet, um den Prozentsatz von KI-generiertem Text im Zielkorpus zu schätzen.

Es wurde eine Methodik eingesetzt, um Rezensionen zu untersuchen, die bei renommierten wissenschaftlichen und ML-Konferenzen wie EMNLP, CoRL, ICLR, NeurIPS und EMNLP eingereicht wurden, sowie Artikel, die in Nature-Portfolio-Zeitschriften veröffentlicht wurden. Mit dieser Fallstudie können Muster in der Anwendung von KI seit der Veröffentlichung von ChatGPT erkannt werden.

Das Team hat auch Veränderungen auf Korpusebene festgestellt, die sich aus der Integration KI-generierter Texte in ein Informationsökosystem ergeben. Diese Erkenntnisse helfen zu verstehen, wie sich die Existenz KI-generierter Inhalte auf die allgemeine Landschaft wissenschaftlicher Rezensionen und Veröffentlichungen auswirkt.

Siehe auch – Studie zeigt, dass ChatGPT lernen muss, innovativ zu sein, um im technischen Design zu glänzen

Zusammenfassend lässt sich sagen, dass die Studie ein neues Paradigma für die effektive Verfolgung von durch KI verändertem Material in Informationsökosystemen vorschlägt und die Bedeutung der Bewertung und Analyse der LLM-Ausgabe insgesamt unterstreicht, um kleinere, aber dauerhafte Auswirkungen der durch KI generierten Sprache zu identifizieren.

Besuche die Papier. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, uns zu folgen auf Þjórsárdalur und treten Sie unserem Telegrammkanal Und LinkedIn Gruff. Wenn Ihnen unsere Arbeit gefällt, werden Sie unsere Newsletter..

Vergessen Sie nicht, sich unserem 46k+ ML SubReddit

Hier finden Sie bevorstehende KI-Webinare

Tanya Malhotra ist Studentin im letzten Jahr an der University of Petroleum & Energy Studies in Dehradun und macht ihren Bachelor of Tech in Computer Science Engineering mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen. Sie ist eine begeisterte Data-Science-Anhängerin mit guten analytischen und kritischen Denkfähigkeiten und einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit auf organisierte Weise zu bewältigen.

🐝 Abonnieren Sie den am schnellsten wachsenden Newsletter zur KI-Forschung, gelesen von Forschern von google + NVIDIA + Meta + Stanford + MIT + Microsoft und vielen anderen …