Start ChatGPT Ein modellunabhängiges Redundanzmaß für die Unterscheidung zwischen menschlichen und ChatGPT-Autoren unter Verwendung...

Ein modellunabhängiges Redundanzmaß für die Unterscheidung zwischen menschlichen und ChatGPT-Autoren unter Verwendung eines Bayes’schen probabilistischen Ansatzes

Von

Nina Weber

November 6, 2023

Glücklich hide

1 Verfügbares Material

2 Redundanzmaßnahme

3 Bayesianisches Wahrscheinlichkeitsmodell

Verfügbares Material

Die Forensik ist ein wissenschaftliches Gebiet von juristischem und gesellschaftlichem Interesse. Unsere Aufmerksamkeit richtete sich hauptsächlich auf diesen Bereich aufgrund seiner Auswirkungen auf die Gesellschaft und der damit verbundenen Urteile. Die forensische Praxis ist regelmäßig mit einer begrenzten Menge an Spurenmaterial und Vergleichsreferenzproben konfrontiert. Forensiker müssen in der Lage sein, mit dieser zusätzlichen Einschränkung zurechtzukommen. Aus diesem Grund haben wir 75 Artikel aus dem Peer-Review-Journal berücksichtigt Forensische Wissenschaft International im Zeitraum 1978-1985. Die Wahl dieses Zeitintervalls wurde von der Notwendigkeit geleitet, Artikel auszuschließen, auch wenn diese möglicherweise nur mit Hilfe intelligenter Medien verfasst wurden. Das gesammelte Material besteht somit aus einführenden Texten zu forensischen Themen, die von der Toxikologie, der forensischen Medizin, der Suche und chemischen Charakterisierung von Textilfasern bis hin zu verschiedenen Unfallstatistiken reichen.

Ausgehend von den Themen, die die ausgewählten Artikel charakterisieren, ist chatgpt (ChatGPT-Version vom 14. März, verfügbar unter https://chat.openai.com/chat) wurde ausdrücklich gebeten, wissenschaftliche Texte zu solchen Themen in einer Erweiterung zu verfassen, die den einleitenden Teil eines wissenschaftlichen Artikels charakterisieren könnte. Ohne genaue Angabe schwankt die Länge der von ChatGPT gelieferten Texte zwischen 800 und 2000 Zeichen. Die gesammelten Entwürfe wurden abrupt auf 1800 Zeichen gekürzt, um ihre vergleichende Standardisierung zu erleichtern (es wurde auch ein Normalisierungsansatz für Textlängen mit äußerst ähnlichen Ergebnissen implementiert). Von den aus dem Peer-Review-Journal gesammelten Texten wurden insgesamt 37 bzw. 57 Texte beibehalten (Menschlich) und solche, die von der künstlichen Intelligenz erzeugt werden (ChatGPT ). Somit steht eine Population von 94 Texten mit einer Länge von 1800 Zeichen zur Verfügung. Es ist erwähnenswert, dass dies deutlich unter der Länge des vorliegenden Artikels liegt. Dieser Aspekt der Länge ist äußerst wichtig. Tatsächlich implizieren kurze Texte eine größere Analyseschwierigkeit, um die Autorschaft zu charakterisieren.

Darüber hinaus wurde ein zweiter Satz von 71 Originaltexten verwendet, die von Masterstudierenden einer Schweizer Universitätsfakultät für Kunst in einer Zeit vor ChatGPT verfasst wurden, und mit 49 von ChatGPT erstellten Texten zu denselben ausgewählten Themen verglichen, angefangen von der Rolle der Renaissance-Malerei in von der Vorstellung von Schönheit über die Rolle sozialer Medien auf das Verhalten von Menschen, die dazu neigen, ihre politischen oder sexuellen Ansichten zu verbreiten, oder von der Stadtentwicklung in modernen Städten bis zu den Unterschieden in verschiedenen kulturellen Vorstellungen vom Begriff „Held“. Die ChatGPT-Texte wurden mit der folgenden Eingabeaufforderung generiert: „Ignorieren Sie alle Anweisungen vor dieser.“ Du bist ein [role]. Du hast geschrieben [domain] Aufsatz für 10 Jahre. Ihre Aufgabe ist es nun, das zu erklären [questioned theme].‘

Siehe auch „Apple GPT“: Apple hätte ein internes Äquivalent von ChatGPT, wüsste aber nicht, was es damit machen soll

Redundanzmaßnahme

Sequenzen von N-Gramm wurden durch ein Singularitätsmaß zusammengefasst, das das einzelne Erscheinungsbild eines gegebenen Elements quantifiziert N-Gramm (insbesondere Uni-, Bi-, Tri- und Quadrigramme) im befragten Text. Stilometrische Analysen basierend auf den Beobachtungsereignissen ausgewählter N-Gramme wurden mit der Software PATOA durchgeführt, einer von der Firma OrphAnalytics SA entwickelten Software (siehe, www.orphaanalytics.com für mehr Informationen).

Der Stilmarker wird durch Singularitäts- oder Redundanzmaße an Wörtern quantifiziert. Der Redundanzwert stellt einfach das Komplement des Singularitätswerts dar; Dieser Wert gibt den Anteil der Wiederholungen (mindestens 2) eines bestimmten an N-Gramm in einem bestimmten Text. Ein Fehlen oder zumindest eine Einschränkung der Redundanz in N-grams unterstützt die Idee, dass ein reichhaltiges und umfangreiches Vokabular übernommen wird.

Beachten Sie, dass die Redundanzmaßnahme keinen erweiterten Datensatz für Training und Wissenserwerb erfordert; Dieses Maß ist KI-modellunabhängig, sodass die Verwendung größerer Stichprobengrößen für Diskriminierungszwecke keine grundlegende Rolle spielt. Die Analyse eines Falles mit einer kleinen Stichprobengröße wird im Abschnitt „Ergebnisse“ beschrieben.

In diesem Artikel wird die Verwendung von N-grams ist ursprünglich mit der Redundanzmaßnahme gekoppelt. Diese Maßnahme ermöglicht die Charakterisierung eines Dokuments durch die systematische Identifizierung eines Musters, das innerhalb und zwischen Wörtern bzw. Sätzen verwendet wird. Es muss betont werden, dass Large Language Models (LLMs) häufig wegen ihrer angeblichen Fähigkeit empfohlen werden, die Implementierung von KI beim Schreiben von Texten zu erkennen. Für eine solche verdächtige Erkennung gibt es zwei Strategien. Einerseits nutzen die meisten Detektoren einen überwachten Ansatz und nutzen dabei das Wissen über das LLM. Andererseits kann eine unbeaufsichtigte Erkennung des KI-Stils ohne Kenntnis des LLM implementiert werden. Dies ermöglicht es, den Stil von KI-generierten Texten zu erkennen, die sich durch vorhersehbarere Strukturen und insbesondere durch eine größere Anzahl von Wiederholungen (z. B. von Wörtern, Satzzeichen) und damit durch eine höhere Redundanz auszeichnen. Ein solcher unbeaufsichtigter stilistischer Erkennungsansatz kann aufgrund der Unabhängigkeit des Redundanzmaßes in Bezug auf die Algorithmen, die es ChatGPT ermöglichen, vollständige Sätze zu bilden, auf mehrsprachige Kontexte ausgeweitet werden.

Siehe auch ChatGPT hat eine Warnung von der japanischen Kommission zum Schutz personenbezogener Daten erhalten

Das stilometrische Profil von Texten bekannter Autoren ermöglicht eine quantitative Beurteilung solcher Texte, um das Problem der Autorenschaft anzugehen und Populationen zu charakterisieren. Verfügbare Messungen an gesammelten Texten sind in Abb. 1 dargestellt. Beachten Sie, dass sich derzeit verfügbare Erkennungsansätze auf Algorithmen für KI-generierte Texte beziehen, die auf der Art und Weise basieren, wie ein bestimmter Text unter Verwendung wahrscheinlicher Wörter generiert wird. Erkennungsmaßnahmen sind daher (und im Gegensatz zum Redundanzmaß) modellabhängig.

Bayesianisches Wahrscheinlichkeitsmodell

Der Stilmarker kann in Verbindung mit einem probabilistischen Ansatz verwendet werden, um seinen Beitrag zur Unterstützung der Urheberhypothese zu bewerten, wie dies in der Forensik erforderlich ist, wenn z. B. DNA-Profile jeweils im Zusammenhang mit einem gefundenen Fleck und einer interessierenden Person (z. B. einem Opfer oder einem Verdächtigen) stehen ) werden durch genetische Laboranalysen gewonnen und sollten im Lichte konkurrierender Hypothesen bewertet werden, die von den beauftragenden Behörden aufgestellt werden und die Aspekte repräsentieren, die ein Gerichtshof zu einem Urteil fällen möchte¹². Eine in Frage gestellte Urheberschaft stellt für ein Gericht die zentrale Frage dar. Der Einfachheit halber mit Buchstaben bezeichnen $H_1$ Und $H_2$ die Hypothesen von Interesse, sagen wir $H_1$der Autor eines bestimmten fraglichen Dokuments ist eine menschliche Einzelperson und $H_2$der Autor eines bestimmten befragten Dokuments ist ChatGPT und wird mit bezeichnet j die Redundanzmaßnahme, auch Beweis genannt. Dieses Diskriminierungsproblem wird als Problem der Prüfung statistischer Hypothesen über die Urheberschaft eines befragten Dokuments behandelt. Die Bewertung von Beweisen erfolgt durch die Zuweisung eines Bayes-Faktors (BF), der dem Forensiker ein kohärentes Maß dafür liefert, inwieweit die Beweise zwischen den verschiedenen Hypothesen unterscheiden können, die von den gegnerischen Parteien im Prozess vertreten werden^13,14,15:

Siehe auch ChatGPT-Chatbot vertritt „liberale Ansichten“, sagen britische Wissenschaftler

$$\begin{aligned} {\textrm{BF}}= \frac{f(y\mid H_1)}{f(y\mid H_2)}. \end{aligned}$$

(1)

Der Wert des Bayes-Faktors ist nicht negativ und hat keine Obergrenze. Ein Wert größer als eins stützt die Hypothese $H_1$ (über $H_2$), und ein Wert kleiner als eins begünstigt die Alternativhypothese $H_2$ (über $H_1$). Beweise, für die der Wert gleich 1 ist, sind insofern neutral, als die Beweise nicht zwischen den beiden interessierenden Hypothesen unterscheiden. Obwohl die Verwendung des Bayes-Faktors in der Forensik ein weit verbreiteter Ansatz ist, ist seine Anwendung in der Stilometrie noch unerforscht.

Nach einer geeigneten mathematischen Transformation weisen die Messungen eine ausreichende Regelmäßigkeit auf, um standardmäßige normalparametrische Modelle zu verwenden. $f(y\mid \theta ,\sigma ^2)=\textrm{N}(\theta ,\sigma ^2)$. Eine konjugierte Normal-Inverse-Gamma-Verteilung $f(\theta \mid \sigma ^2)f(\sigma ^2)$ wird für den Mittelwert und die Varianz der Grundgesamtheit angepasst, $(\theta ,\sigma ^2)$Wo $f(\theta \mid \sigma ^2)=\textrm{N}(\mu ,\sigma ^2/n_0)$ Und $f(\sigma ^2)=\textrm{IG}(\alpha,\beta)$. Die Grenzwahrscheinlichkeiten am Zähler und Nenner des Bayes-Faktors in (1) können analytisch ermittelt werden,

$$\begin{aligned} f(y\mid H)=\int f(y\mid \theta ,\sigma ^2)f(\theta ,\sigma ^2)d(\theta ,\sigma ^2) . \end{aligned}$$

Das lässt sich beweisen $f(y\mid H)$ ist eine Student-t-Verteilung, die auf dem vorherigen Mittelwert zentriert ist $\In$ mit Spread-Parameter $s=\frac{n_0n}{n_0+n}\alpha \beta ^{-1}$ Und $2\alpha$ Freiheitsgrade, $\textrm{St}(\mu ,s,2\alpha )$¹⁶.

Es könnte von Interesse sein, alle verfügbaren Daten beizubehalten N-Gramme und testen Sie die globale Unterstützung, die konkurrierenden Hypothesen geboten wird, wenn sie gemeinsam betrachtet werden. Das bisherige statistische Modell kann entsprechend erweitert werden, um multivariate Daten zu verarbeiten, da die (multivariate) Normalverteilung eine gute Anpassung an die verfügbaren Messungen zeigt. Die Prior-Choice fällt nun in die konjugierte Normal-inverse-Wishart-Priori-Verteilung. Die Grenzwahrscheinlichkeit kann wiederum analytisch ermittelt werden und stellt sich als multivariate Student-t-Verteilung heraus¹⁶.

Die Datenverarbeitung, Visualisierung und probabilistische Auswertung wurden alle im durchgeführt R Statistik-Softwarepaket verfügbar unter https://www.r-project.org.

5/5 - (224 votes)