chatgpt-cohere-ai21-labs-costs.jpg?resize=696%2C435&ssl=1″ alt=“chatgpt cohere ai21 labs costs“ class=“wp-image-16615 amp-wp-enforced-sizes i-amphtml-layout-intrinsic i-amphtml-layout-size-defined“ srcset=“https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2023/06/chatgpt-cohere-ai21-labs-costs.jpg?resize=1024%2C640&ssl=1 1024w, https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2023/06/chatgpt-cohere-ai21-labs-costs.jpg?resize=300%2C188&ssl=1 300w, https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2023/06/chatgpt-cohere-ai21-labs-costs.jpg?resize=768%2C480&ssl=1 768w, https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2023/06/chatgpt-cohere-ai21-labs-costs.jpg?resize=1536%2C960&ssl=1 1536w, https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2023/06/chatgpt-cohere-ai21-labs-costs.jpg?resize=696%2C435&ssl=1 696w, https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2023/06/chatgpt-cohere-ai21-labs-costs.jpg?resize=1068%2C668&ssl=1 1068w, https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2023/06/chatgpt-cohere-ai21-labs-costs.jpg?resize=672%2C420&ssl=1 672w, https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2023/06/chatgpt-cohere-ai21-labs-costs.jpg?w=1920&ssl=1 1920w, https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2023/06/chatgpt-cohere-ai21-labs-costs.jpg?w=1392&ssl=1 1392w“ sizes=“(max-width: 696px) 100vw, 696px“ layout=“intrinsic“ disable-inline-width=““ i-amphtml-layout=“intrinsic“>
Chatgpt Cohere Ai21 Labs Kosten

Dieser Artikel ist Teil unserer Berichterstattung über die neuesten Entwicklungen in der KI-Forschung.

Große Sprachmodelle (LLM) wie ChatGPT und GPT-4 sind sehr praktisch. Mit ein paar API-Aufrufen können Sie sie dazu bringen, beeindruckende Dinge zu tun. Jeder API-Aufruf ist mit Grenzkosten verbunden und Sie können in kurzer Zeit Proofs of Concepts und Arbeitsbeispiele zusammenstellen.

Wenn LLMs jedoch für reale Anwendungen verwendet werden, die Tausende von API-Aufrufen pro Tag senden, können die Kosten schnell in die Höhe schnellen. Am Ende zahlen Sie möglicherweise Tausende von Dollar pro Monat, um Aufgaben zu erledigen, für die Sie sonst nur einen Bruchteil des Geldes benötigen würden.

Eine aktuelle Studie von Forschern der Stanford University zeigt, dass Sie die Kosten für die Verwendung von GPT-4, ChatGPT und anderen LLM-APIs erheblich senken können. In einem Artikel mit dem Titel „SparsamGPT„Sie führen verschiedene Techniken ein, um die Kosten von LLM-APIs um bis zu 98 Prozent zu senken und gleichzeitig ihre Leistung zu erhalten oder sogar zu verbessern.

Welche Sprachmodell-API sollten Sie verwenden?

GPT-4 ist wohl das leistungsfähigste große Sprachmodell. Aber es ist auch das teuerste. Und die Kosten steigen nur, wenn Ihre Eingabeaufforderung länger wird. In vielen Fällen können Sie ein anderes Sprachmodell, einen anderen API-Anbieter oder sogar eine andere Eingabeaufforderung finden, die die Kosten für die Inferenz senken kann. OpenAI bietet beispielsweise eine breite Palette von Modellen, deren Kosten zwischen 0,0004 und 0,12 US-Dollar pro 1.000 Token liegen, was einem 300-fachen Unterschied entspricht. Darüber hinaus können Sie andere Anbieter wie AI21 Labs, Cohere und Textsynth für andere Preisoptionen ausprobieren.

Glücklicherweise verfügen die meisten API-Dienste über ähnliche Schnittstellen. Mit ein wenig Aufwand können Sie eine Abstraktionsebene erstellen, die nahtlos auf verschiedene APIs angewendet werden kann. Tatsächlich sind Python-Bibliotheken wie LangChain habe den Großteil der Arbeit bereits für Sie erledigt. Ohne einen systematischen Ansatz zur Auswahl des effizientesten LLM für jede Aufgabe müssen Sie sich jedoch zwischen Qualität und Kosten entscheiden.

In ihrer Arbeit schlagen die Forscher der Stanford University einen Ansatz vor, der die LLM-API-Kosten innerhalb eines Budgetrahmens hält. Um dies zu erreichen, schlagen sie drei Strategien vor: sofortige Anpassung, LLM-Approximation und LLM-Kaskade. Obwohl diese Techniken noch nicht in Produktionsumgebungen angewendet wurden, zeigen erste Tests vielversprechende Ergebnisse.

Gpt-4-Kostensenkungsstrategien
Drei Strategien zur Reduzierung der Kosten für die Verwendung von GPT-4 und ChatGPT

Prompte Anpassung

Alle LLM-APIs verfügen über ein Preismodell, das von der Länge der Eingabeaufforderung abhängt. Daher besteht die einfachste Möglichkeit, die Kosten der API-Nutzung zu senken, darin, Ihre Eingabeaufforderungen zu kürzen. Dafür gibt es mehrere Möglichkeiten.

Siehe auch  Es ist Zeit für Lehrer, bei ChatGPT – Harvard Gazette loszulegen

Für viele Aufgaben erfordern LLMs eine Eingabeaufforderung mit wenigen Schüssen. Das bedeutet, dass Sie Ihrer Eingabeaufforderung einige Beispiele voranstellen müssen, um die Leistung des Modells zu verbessern, normalerweise im Eingabeaufforderung->Antwort-Format. Frameworks wie LangChain bieten Tools, mit denen Sie Vorlagen erstellen können, die wenige Beispiele enthalten.

Da LLMs immer längere Kontexte unterstützen, neigen Entwickler manchmal dazu, sehr große Vorlagen mit wenigen Aufnahmen zu erstellen, um die Genauigkeit des Modells zu verbessern. Das Modell benötigt jedoch möglicherweise nicht so viele Beispiele.

Die Forscher schlagen eine „prompte Auswahl“ vor, bei der Sie die Anzahl der Beispiele mit wenigen Aufnahmen auf ein Minimum reduzieren, das die Ausgabequalität beibehält. Selbst wenn Sie 100 Token aus der Vorlage einsparen können, kann dies bei mehrmaliger Verwendung zu enormen Einsparungen führen.

Eine weitere Technik, die sie vorschlagen, ist die „Abfrageverkettung“, bei der Sie mehrere Eingabeaufforderungen zu einer bündeln und das Modell mehrere Ausgaben in einem Aufruf generieren lässt. Auch dies ist besonders effektiv, wenn die Eingabeaufforderung mit wenigen Schüssen verwendet wird. Wenn Sie Ihre Fragen einzeln senden, müssen Sie bei jeder Aufforderung die wenigen Beispiele angeben. Wenn Sie Ihre Eingabeaufforderungen jedoch verketten, müssen Sie den Kontext nur einmal senden und erhalten in der Ausgabe mehrere Antworten.

Schnelle Anpassung Von Gpt-4
Zwei Methoden, um Eingabeaufforderungen zu verkürzen und die Kosten für den Aufruf von LLM-APIs zu senken.

Ein Tipp, den ich hinzufügen möchte, ist die Optimierung von Kontextdokumenten. Bei einigen Anwendungen verfügt das Vanilla-LLM nicht über das Wissen, um die richtigen Antworten auf Benutzeranfragen bereitzustellen. Eine beliebte Methode, diese Lücke zu schließen, ist die Retrieval-Augmentation. Hier verfügen Sie über eine Reihe von Dokumenten (PDF-Dateien, Dokumentationsseiten usw.), die das Wissen für Ihre Anwendung enthalten. Wenn der Benutzer eine Eingabeaufforderung sendet, suchen Sie das relevanteste Dokument und stellen es der Eingabeaufforderung als Kontext voran, bevor Sie es an das LLM senden. Auf diese Weise konditionieren Sie das Modell so, dass es dem Benutzer basierend auf dem Wissen im Dokument antwortet.

Dies ist eine sehr effektive Methode, um das Halluzinationsproblem von ChatGPT anzugehen und es für Ihre eigenen Anwendungen anzupassen. Es kann aber auch die Größe der Eingabeaufforderungen erhöhen. Sie können die Kosten für die Retrieval-Erweiterung reduzieren, indem Sie mit kleineren Kontextabschnitten experimentieren.

LLM-Näherung

Eine weitere Lösung zur Kostensenkung besteht darin, die Anzahl der API-Aufrufe an das LLM zu reduzieren. Die Forscher schlagen vor, kostspielige LLMs „durch günstigere Modelle oder Infrastruktur“ anzunähern.

Siehe auch  KI-Server mit ChatGPT verbrauchen nicht nur viel Energie, sondern auch viel Wasser für die Kühlung / ServerNews

Eine Methode zur Approximation von LLMs ist der „Completion Cache“, bei dem Sie die Eingabeaufforderungen und Antworten des LLM auf einem Zwischenserver speichern. Wenn ein Benutzer eine Eingabeaufforderung sendet, die mit einer zuvor zwischengespeicherten Eingabeaufforderung identisch oder dieser ähnlich ist, rufen Sie die zwischengespeicherte Antwort ab, anstatt das Modell erneut abzufragen. Die Implementierung des Abschlusscaches ist zwar einfach, bringt jedoch einige schwerwiegende Nachteile mit sich. Erstens verringert es die Kreativität und die Variationsbreite der LLM-Antworten. Zweitens hängt seine Anwendbarkeit davon ab, wie ähnlich die Suchanfragen der Benutzer sind. Drittens kann der Cache sehr groß werden, wenn die gespeicherten Eingabeaufforderungen und Antworten sehr unterschiedlich sind. Wenn schließlich die Ausgabe des LLM vom Benutzerkontext abhängt, ist das Zwischenspeichern von Antworten nicht sehr effizient.

Llm-Näherung
Zwei Methoden zur Annäherung an LLMs und zur Reduzierung der Anzahl von API-Aufrufen an große Modelle wie ChatGPT und GPT-4

Als weitere Approximationsmethode schlagen die Stanford-Forscher das „Model Fine-Tuning“ vor. In diesem Fall sammeln Sie eine Sammlung von Prompt-Response-Paaren von einem leistungsstarken und teuren LLM wie ChatGPT oder GPT-4. Anschließend verwenden Sie diese Antworten zur Feinabstimmung eines kleineren und günstigeren Modells, möglicherweise eines Open-Source-LLM, das auf Ihren eigenen Servern ausgeführt wird. Alternativ können Sie mit den gesammelten Daten ein günstigeres Online-Modell (z. B. GPT-3 Ada oder Babbage) optimieren.

Dieser Ansatz, der manchmal als „Modellimitation“ bezeichnet wird, ist eine praktikable Methode zur Annäherung an die Fähigkeiten des größeren Modells, weist jedoch auch Grenzen auf. Insbesondere wurde beobachtet, dass kleine LLMs, die auf Modellimitation trainiert wurden, den Stil des größeren Modells nachahmen, ohne sich dessen Wissen anzueignen. Daher sinkt die Genauigkeit des Modells.

LLM-Kaskade

Eine komplexere Lösung besteht darin, ein System zu erstellen, das für jede Eingabeaufforderung die beste API auswählt. Anstatt alles an GPT-4 zu senden, kann das System so optimiert werden, dass es das günstigste LLM wählt, das auf die Aufforderung des Benutzers reagieren kann. Dies kann sowohl zu einer Kostensenkung als auch zu einer Leistungsverbesserung führen.

Die Forscher schlagen eine Methode namens „LLM-Kaskade“ vor, die wie folgt funktioniert: Die Anwendung verfolgt eine Liste von LLM-APIs, die von einfach/billig bis komplex/teuer reichen. Wenn die App eine neue Eingabeaufforderung empfängt, sendet sie diese zunächst an das einfachste Modell. Wenn die Antwort zuverlässig ist, wird sie gestoppt und an den Benutzer zurückgegeben. Wenn nicht, wird die Kaskade weiter abwärts durchlaufen und das nächste Sprachmodell abgefragt. Wenn Sie frühzeitig in der Pipeline zuverlässige Antworten erhalten, reduzieren Sie die Kosten Ihrer Bewerbung erheblich.

Llm-Kaskade
Verwendung von LLM-Kaskaden zur Reduzierung der Kosten für die Verwendung der GPT-4-API

Es gibt jedoch ein paar Haken. Erstens: Wenn Ihre Anwendung für die kleineren Modelle zu kompliziert ist, entsteht unnötiger Overhead, der die Kosten erhöht und die Leistung verringert.

Siehe auch  Der GPT-Store von OpenAI ist jetzt für Chatbot-Builder geöffnet

Die andere Herausforderung besteht darin, ein System zu schaffen, das die Qualität und Zuverlässigkeit der Ergebnisse eines LLM bestimmen kann. Die Forscher schlagen vor, ein Regressionsmodell zu trainieren, das anhand der Abfrage und der generierten Antwort ermittelt, ob eine Generation korrekt ist. Dies erhöht die Komplexität und erfordert einen Vorabaufwand des Entwicklungsteams, um jede der LLM-APIs anhand einer Reihe von Eingabeaufforderungen zu testen, die die Art von Abfragen darstellen, die ihre Anwendung erhält. Es bleibt auch abzuwarten, wie praktisch es in realen Produktionsumgebungen ist.

Eine andere Lösung besteht darin, verschiedene Strategien zu kombinieren, um eine effizientere (wenn auch komplexere) LLM-Kaskade zu schaffen. Beispielsweise schlagen die Forscher eine „gemeinsame Eingabeaufforderung und LLM-Auswahl“ vor, um das kleinste Eingabeaufforderungs- und kostengünstigste LLM auszuwählen, mit dem eine zufriedenstellende Aufgabenleistung erzielt werden kann.

SparsamGPT

Sparsamgpt
SparsamGPT

Die Forscher implementierten die LLM-Kaskadenstrategie mit FrugalGPT, einem System, das 12 verschiedene APIs von OpenAI, Cohere, AI21 Labs, Textsynth und ForeFrontAI verwendet.

Sie testeten FrugalGPT mit mehreren Benchmarks für natürliche Sprache. Ihre ersten Ergebnisse zeigen, dass es ihnen gelungen ist, die Kosten um Größenordnungen zu senken und gleichzeitig teilweise die Leistung zu verbessern.

Die Forscher schreiben: „FrugalGPT ermöglicht reibungslose Leistungs-Kosten-Kompromisse über alle ausgewerteten Datensätze hinweg.“ Dies bietet LLM-Benutzern flexible Auswahlmöglichkeiten und hilft möglicherweise LLM-API-Anbietern, Energie zu sparen und CO2-Emissionen zu reduzieren. Tatsächlich kann FrugalGPT gleichzeitig die Kosten senken und die Genauigkeit verbessern.“

Es ist erwähnenswert, dass Benchmark-Tests nicht unbedingt genaue Indikatoren für die Leistung eines Modells in realen Anwendungen sind. Die Forscher stellen außerdem fest, dass der Ansatz einige Einschränkungen aufweist, einschließlich der Notwendigkeit gekennzeichneter Daten und Rechenressourcen, um den Antwortauswerter von FrugalGPT zu trainieren. „Wir betrachten dies als einen [sic] einmalige Vorabkosten; Dies ist von Vorteil, wenn der endgültige Abfragedatensatz größer ist als die zum Training der Kaskade verwendeten Daten“, schreiben die Forscher.

Aber es bietet interessante Hinweise zur Erkundung von LLM-Anwendungen. Während sich diese Arbeit auf die Kosten konzentriert, können ähnliche Ansätze auch für andere Anliegen wie Risikokritikalität, Latenz und Datenschutz verwendet werden. „Die kontinuierliche Weiterentwicklung von LLMs und ihren Anwendungen wird unweigerlich neue Herausforderungen und Chancen eröffnen und weitere Forschung und Entwicklung in diesem dynamischen Bereich fördern“, schreiben die Forscher.

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein