Australische Studenten, denen Betrug bei Aufgaben vorgeworfen wird, sagen, dass die von Universitäten eingesetzte Technologie zur Erkennung von KI-generierten Inhalten falsch positive Ergebnisse liefert.
chatgpt in Aufgaben“/>
Zwei Anbieter, die Lösungen vorschlagen, um den Einsatz von KI-Tools wie ChatGPT zu identifizieren, wurden von der Branche übernommen: Turnitin und Cadmus Analytics, obwohl hauptsächlich Turnitin verwendet wird.
Gegen Studenten der University of Melbourne, der University of Southern Queensland und der University of Adelaide wurde wegen akademischen Fehlverhaltens ermittelt, nachdem Turnitin in ihren Aufgaben KI-generierten Text entdeckt hatte.
Mindestens ein Student gab an, authentische Arbeiten eingereicht zu haben; Andere konnten nicht gefunden oder für einen Kommentar erreicht werden.
Die KI-Erkennungsfunktion von Turnitin wurde seit ihrer Einführung im April auch von der UNSW Sydney, der University of Tasmania, der University of Queensland und der Western Sydney University übernommen.
Die Führungskräfte von Turnitin sagen, es bestehe in der Branche nicht, die eigene Software als alleinige Beweisgrundlage für eine Anschuldigung zu verwenden.
„Wir haben betont, dass wir nicht glauben, dass der AI-Bericht als einzelnes Beweisstück betrachtet werden sollte“, sagte James Thorley, APAC-Vizepräsident von Turnitin.
Universitäten, die sich für die Verwendung der Turnitin-Software zur Erkennung angeblicher Fälle von KI-generiertem Text in Aufgaben angemeldet haben, sagen ebenfalls, dass sie diese Anleitung befolgen.
Aber die KI-Erkennung steckt noch in den Kinderschuhen, und einige Studenten sagen, dass sie die Hauptlast der Fälle zu spüren bekommen, in denen die Best Practices nicht unbedingt befolgt werden.
„Meine Angst ging durch die Decke“
Ein Masterstudent der Fakultät für Sozialwissenschaften der University of Melbourne erzählte iTnews dass sie eine E-Mail von ihrem Fachkoordinator erhalten habe, in der es hieß, dass Turnitin Ende April ChatGPT in einer ihrer Aufgaben entdeckt habe.
Rachel erzählte unter einem Pseudonym iTnews dass „meine Angstzustände durch die Decke gingen.“
„Mir wurde noch nie ein Fehlverhalten vorgeworfen. Man teilte mir mit, dass KI entdeckt worden sei und ich würde später von einem akademischen Integritätsausschuss erfahren, wann meine Anhörung stattfinden würde.“
„Ich sagte meiner Fachkoordinatorin, dass ich keine KI eingesetzt habe, und schickte ihr Artikel, in denen ich gelesen hatte, dass es zu Fehlalarmen gekommen sei, aber sie sagte nur, dass ich bei der Anhörung darüber sprechen könne.
„Als ich eine E-Mail erhielt, in der mir mitgeteilt wurde, wann die Anhörung stattfinden würde, war ich verärgert darüber, dass es noch mehr als einen Monat dauern würde.
„Ich wollte nicht, dass mir alles über den Kopf hängt.“
Das teilte die Universität Melbourne mit iTnews dass es „verlangt, dass die Mitarbeiter zusätzliche Beweise berücksichtigen, bevor sie einen Vorwurf akademischen Fehlverhaltens erheben, und sich nicht ausschließlich auf die Ergebnisse des Tools verlassen.“
Rachel sagte, als ihr Fachkoordinator zwei Tage vor der Anhörung zustimmte, mit ihr zu sprechen, seien keine Beweise dafür angeführt worden, dass sie außer der Erkennung von Turnitin generative KI verwendet habe.
„Ich habe die Gelegenheit bekommen, etwas zu leisten [the coordinator] mit den Beweisen, die ich für meine Vorlage bei der Anhörung zusammengestellt hatte“, sagte Rachel.
„Ich habe ihr Screenshots meines Browserverlaufs gezeigt, um zu zeigen, dass ich Nachforschungen angestellt und Entwürfe für die Aufgabe erstellt habe. dann wurde die Angelegenheit vor der Anhörung fallen gelassen.“
Thorley von Turnitin sagte, der Fall zeige die Schwäche, wenn eine Entdeckung als einzige Grundlage für eine Anschuldigung herangezogen werde.
„Das Bewertungsdesign kann es ermöglichen, die Arbeiten der Studierenden besser zu teilen und zu zeigen und ihnen zu zeigen, wie sie zu diesem Endprodukt gelangt sind. Das wurde in diesem Fall quasi im Nachhinein gemacht.“
A Die Arbeit eines Studenten an der University of Southern Queensland wurde ebenfalls durch die KI-Erkennung von Turnitin gekennzeichnet Funktion, aber es gab entlastende Beweise dafür, dass sie das Tool nur nutzten, um ihre Aufgabe mit besserer Grammatik umzuformulieren.
Die stellvertretende Vizekanzlerin und Vizepräsidentin (akademisch) der Universität Adelaide, Professorin Jennie Shaw, sagte iTnews dass es nutzt„Turnitins KI-Erkennungstool … um unangemessenen Einsatz generativer KI zu erkennen.“
„Die Universität verzeichnet einen Anstieg der gemeldeten mutmaßlichen Verstöße gegen die akademische Integrität, einschließlich der Vorwürfe des unangemessenen Einsatzes generativer KI“, sagte sie.
„Diese Fälle durchlaufen derzeit unseren akademischen Integritätsprozess, daher ist es nicht möglich, eine genaue Zahl zu nennen.“
Sie wies zwar darauf hin, dass bei den Erkennungen einige falsch positive Ergebnisse möglich sein könnten, gab jedoch – wie auch andere Universitäten – an, dass Turnitin „nicht isoliert verwendet“ wird.
„Der KI-Score allein sollte kein Grund für einen akademischen Integritätsbericht sein“, sagte Shaw.
„Zum Beispiel kann es sein, dass der Dozent oder Tutor falsche Referenzen in der Arbeit eines Studenten bemerkt hat, was ein häufiger Fehler der generativen KI ist.“
Das nächste wahrscheinliche Wort ist…
Die meisten australischen Universitäten nutzen Turnitin bereits, um Plagiate zu erkennen, indem sie die Aufgaben der Studierenden automatisch mit Online-Materialien und den Repositories von Turnitin abgleichen.
Die Beurteilung der Ähnlichkeit eingereichter Arbeiten zu bestehenden Inhalten ist unumstritten, da die Hochschulen die Quellendokumente zitieren können.
Es besteht nicht der gleiche Konsens darüber, ob sich maschinelles Lernen so weit entwickelt hat, dass generative KI mit hoher Sicherheit von menschlichem Schreiben unterschieden werden kann.
OpenAI beispielsweise hat kürzlich sein eigenes KI-generiertes Texterkennungstool abgeschaltet Nachdem ich zu dem Schluss gekommen war, dass es zu viele Fehlalarme gab.
Turnitin verwendet Klassifikatoren, die auf KI-generierte Inhalte und authentisches akademisches Schreiben geschult sind.
Thorley von Turnitin sagte, dass das eingestellte Erkennungstool von OpenAI nicht mit dem Modell von Turnitin verglichen werden könne, da letzteres darauf trainiert worden sei, speziell KI-generierten Text von akademischem Schreiben zu unterscheiden.
„Was die Frage betrifft, wie wir so sicher sein können, wenn OpenAI seinen Detektor abgeschaltet hat, konzentrieren wir uns stark auf das Schreiben von Studenten und glauben, dass es möglich ist, sich auf das Schreiben von Studenten zu konzentrieren und es in diesem Kontext zu betrachten ,“ er sagte.
„Wenn Sie versuchen, jede Art generativer KI in jedem Format zu erkennen – was möglicherweise das ist, was wir mit OpenAI versuchen –, ist das viel schwieriger und die Komplexität nimmt unglaublich zu.“
Turnitins Methodik Zur Beurteilung, ob ein Satz KI-generiert wurde, stellt fest, dass Large Language Models (LLMs) Wortfolgen auf „konsistente und höchstwahrscheinliche Weise“ generieren.
Dies liegt daran, dass LLMs wie GPT-3 von OpenAI, Bard von google und LLaMA von Meta auf öffentlich zugängliche Online-Inhalte trainiert werden und „im Wesentlichen diese große Textmenge nehmen und Wortfolgen basierend auf der Auswahl der nächsten höchstwahrscheinlichen Wörter generieren“.
Im Gegensatz dazu „menschliches Schreiben….“ neigt dazu, inkonsistent und eigenwillig zu sein, was dazu führt, dass die Wahrscheinlichkeit, dass der Mensch das nächste Wort auswählt, das in der Sequenz verwendet wird, gering ist.“
Die Klassifikatoren von Turnitin wurden von Menschen und LLMs auf akademisches Schreiben trainiert und erkennen Sätze, die Wörter in Sequenzen enthalten, in denen LLMs sie mit hoher Wahrscheinlichkeit generieren.
Thorley sagte: „Die Art und Weise, wie die KI-Erkennung funktioniert, lässt sich sagen, dass man sagen kann, dass eine Maschine ‚so‘ schreibt und ein Mensch ‚so‘ schreibt.“
Fehlerquote von Turnitin
Entsprechend Turnitinbeträgt die Falsch-Positiv-Rate für einen einzelnen Satz vier Prozent und die Falsch-Positiv-Rate für ein gesamtes Dokument ein Prozent, vorausgesetzt, dass mindestens 20 Prozent des Dokuments KI-generiert sind.
Turnitin bewertet jeden Satz eines Dokuments anhand einer binären Bewertung, ob er KI-generiert wurde; Anschließend werden die Bewertungen der Sätze zu einem Prozentwert des KI-generierten Inhalts im Dokument zusammengefasst.
Um Fehlalarme zu verhindern, behält sich das Modell eine Beurteilung vor, wenn es weniger als 20 Prozent der KI-generierten Sätze im gesamten Dokument erkennt, da die Zuverlässigkeit zu gering ist.
„Ein Teil unseres Fokus, den wir auf die Minimierung falsch positiver Ergebnisse gelegt haben, besteht darin, zu sagen, dass wir, wenn wir uns in einer Grauzone befinden, auf Nummer sicher gehen und nur dann eindeutige Aussagen machen, wenn wir uns in einem sehr schwierigen Bereich befinden „Ich bin sehr zuversichtlich“, sagte Thorley.
Als Antwort auf eine Frage nach der Mathematik, die dahintersteckt, wie die Tests von Turnitin zu dem Schluss kamen, dass das Modell diese Falsch-Positiv-Raten aufweist – vier Prozent für Sätze und ein Prozent für ganze Dokumente – antwortete Thorley: „Wir werden demnächst ein Whitepaper veröffentlichen viel mehr Tiefe auf technischer Ebene.“
Nach Washington Post Der Journalist Geoffrey A. Fowler interviewte Studenten in den USA, die Turnitin beschuldigten, ihre Arbeit fälschlicherweise gekennzeichnet zu haben. Er testete 16 Beispiele echter, KI-erstellter Aufsätze mit gemischten Quellen anhand des Modells und gefunden „Mehr als die Hälfte davon lag zumindest teilweise falsch.“
Das sagte der Chefwissenschaftler des KI-Instituts der UNSW, Professor Toby Walsh iTnews dass Turnitins Behauptungen über die Falsch-Positiv-Rate des Modells „problematisch“ sind.
„Turnitin vergleicht die Wortwahrscheinlichkeiten mit den von LLMs generierten Wahrscheinlichkeiten“, sagte Walsh.
„Das gibt Ihnen nur eine Wahrscheinlichkeit. Es gibt Ihnen keine Gewissheit.“
Während Turnitin hat gesagt Sein Modell ist auf „authentisches akademisches Schreiben in allen Regionen“ trainiert. Laut Walsh gibt es keine Beweise dafür, dass es auf einer ausreichend großen Vielfalt an Datenquellen trainiert wurde, um an verschiedenen Universitäten auf der ganzen Welt ohne voreingenommene Ergebnisse angewendet zu werden.
„Wir haben Beweise dafür, dass Tools voreingenommen funktionieren. Wir wissen nicht, ob die Daten unserer Universität aus einer ähnlichen oder einer anderen Verteilung stammen.“
Walsh sagte, dass Turnitin wahrscheinlich auch überproportional für Aufgaben geschult wurde, die von Studenten geschrieben wurden, deren Muttersprache Englisch ist.
„Die Falsch-Positiv-Raten dürften bei Schülern, die nicht in ihrer Muttersprache schreiben, viel höher sein.“
Unterstützung durch von Cadmus verfolgte Arbeiten
Während Studierende ihre Aufgaben normalerweise in Word, Google Docs oder einer anderen bevorzugten Textverarbeitungsplattform schreiben, zwingen einige Fachkoordinatoren sie dazu, Cadmus zu verwenden, um zu überwachen, wie sie ihre Aufgaben in Echtzeit erstellen.
Cadmus stellt Prüfern Echtzeitdaten darüber zur Verfügung, wie Studierende ihre Aufgaben über die Plattform erledigen.
Obwohl es traditionell zur Aufdeckung von Vertragsbetrug verwendet wird, sagte Cadmus im Januar dass es „Pädagogen helfen kann, den Einsatz von KI in Beurteilungen zu erkennen“, indem es „Techniken erkennt, die ausschließlich den Schülern zugeschrieben werden, die ChatGPT verwenden“.
Der Cadmus Workspace verfügt unter anderem über die Funktion Flag Gewohnheiten, die mit der „Verwendung von ChatGPT“ verbunden sind, wie etwa „Schüler, die ihre Prüfungsinhalte in den Cadmus-Arbeitsbereich einfügen“. und nehmen Sie geringfügige Änderungen vor, um eine authentische Einreichung zu erstellen.
Die für den Auftrag aufgewendeten Stunden, der Ursprung des kopierten TextesTastaturmuster und Standortdaten der Schüler, z die Adresse der Internetverbindung ihres Geräts sind einige Beispiele für Daten, die Cadmus sammelt.
Die University of Southern Queensland nutzte Cadmus, um Anfang des Jahres einen Krankenpflegestudenten dabei zu erwischen, wie er Paraphrasierungssoftware nutzte.
Alter Dozent sagte Dr. Liz Ryan in einer Online-Präsentation über Cadmus dass „die Einfügeprotokolle der Schüler ergaben, dass alle ihre Bewertungsarbeiten von Quillbot, einer KI, eingefügt wurden.“ [paraphrasing] Werkzeug, das nur mit ausdrücklicher Genehmigung des Kurskoordinators verwendet werden darf.“
„Dieser Student wurde dann an das Team für akademische Integrität verwiesen.“
Die University of Southern Queensland antwortete nicht auf eine Bitte um Stellungnahme von iTnews darüber, ob festgestellt wurde, dass der Student gegen seine Richtlinien zur akademischen Integrität verstoßen hat.
Andere bei Cadmus registrierte Universitäten nutzen es überhaupt nicht für KI-Erkennungen.
Ein Sprecher der University of Adelaide sagte, dass sie „Cadmus nicht ausdrücklich zur Identifizierung von KI-generiertem Text verwendet“.
„Stattdessen werden die Mitarbeiter ermutigt, diese Plattform zu nutzen, um die fortschrittlichen Entwürfe und die Entwicklung von Ideen der Studenten zu sehen.“
Ein Sprecher der University of Melbourne sagte außerdem, dass „einige Probanden der Universität Cadmus für ihre Bewertungsaufgaben verwenden“, jedoch nicht explizit zur Erkennung von KI.
„In Cadmus wird die Aufgabe digital ‚beobachtet‘, da der gesamte Prozess des Verfassens von Aufgaben innerhalb von Cadmus durchgeführt wird und das Lehrpersonal bei Bedarf ‚beobachten‘ und überprüfen kann.“
Walsh erzählte iTnews Er glaubte auch nicht, dass Cadmus die beste Lösung für Universitäten sei, um die akademische Integrität vor generativer KI zu schützen.
„Die Cadmus-Methodik wird es schwieriger, aber nicht unmöglich machen, zu betrügen.“
„Es gibt einen sehr einfachen (und kostengünstigen) Weg, um sicherzustellen, dass die Leute nicht betrügen: Setzen Sie sie in Prüfungsbedingungen; ein geschlossener Raum ohne Zugang zu Technologie.“
Cadmus antwortete nicht iTnews‘ Bitte um Kommentar.