chatgpt-and-GPT-4.jpg“ alt=“ChatGPT“ width=“900″ height=“500″ srcset=“https://www.analyticsinsight.net/wp-content/uploads/2023/06/Techniques-to-Cut-the-Costs-of-Using-ChatGPT-and-GPT-4.jpg 900w, https://www.analyticsinsight.net/wp-content/uploads/2023/06/Techniques-to-Cut-the-Costs-of-Using-ChatGPT-and-GPT-4-300×167.jpg 300w, https://www.analyticsinsight.net/wp-content/uploads/2023/06/Techniques-to-Cut-the-Costs-of-Using-ChatGPT-and-GPT-4-768×427.jpg 768w, https://www.analyticsinsight.net/wp-content/uploads/2023/06/Techniques-to-Cut-the-Costs-of-Using-ChatGPT-and-GPT-4-780×433.jpg 780w, https://www.analyticsinsight.net/wp-content/uploads/2023/06/Techniques-to-Cut-the-Costs-of-Using-ChatGPT-and-GPT-4-600×333.jpg 600w, https://www.analyticsinsight.net/wp-content/uploads/2023/06/Techniques-to-Cut-the-Costs-of-Using-ChatGPT-and-GPT-4-550×306.jpg 550w, https://www.analyticsinsight.net/wp-content/uploads/2023/06/Techniques-to-Cut-the-Costs-of-Using-ChatGPT-and-GPT-4-370×206.jpg 370w, https://www.analyticsinsight.net/wp-content/uploads/2023/06/Techniques-to-Cut-the-Costs-of-Using-ChatGPT-and-GPT-4-255×142.jpg 255w, https://www.analyticsinsight.net/wp-content/uploads/2023/06/Techniques-to-Cut-the-Costs-of-Using-ChatGPT-and-GPT-4-150×83.jpg 150w“ sizes=“(max-width: 900px) 100vw, 900px“/>
Erfahren Sie, wie Sie mithilfe dieser Techniken die Kosten für die Verwendung von ChatGPT und GPT4 senken können
Große Sprachmodelle (LLM) wie ChatGPT und GPT-4 sind hilfreich. Mit ein paar API-Aufrufen können Sie sie dazu bringen, außergewöhnliche Dinge zu leisten. Jeder API-Aufruf ist mit Grenzkosten verbunden und Sie können Proofs of Concept anhand von Arbeitsbeispielen erstellen.
Wenn es jedoch für reale Apps verwendet wird, die täglich Hunderte von API-Anfragen durchführen, können sich die Gebühren schnell summieren. Möglicherweise geben Sie jeden Monat Tausende von Dollar für die Erledigung von Aufgaben aus, was in der Regel nur einen Bruchteil dieses Betrags kostet.
Laut einer aktuellen Studie von Forschern der Stanford University können durch den Einsatz von GPT-4, ChatGPT und anderen LLM-APIs die Kosten erheblich gesenkt werden. Eine Studie namens „FrugalGPT“ stellt viele Ansätze vor, um die Kosten von LLM-APIs um bis zu 98 % zu senken und gleichzeitig deren Leistung beizubehalten oder sogar zu steigern. Hier erfahren Sie mehr darüber, wie Sie die ChatGPT-Kosten senken können.
Welches API-Sprachmodell sollten Sie verwenden?
GPT-4 wird oft als das kompetenteste große Sprachmodell angesehen. Allerdings ist es auch das teuerste. Und die Gebühren steigen, je länger Ihre Eingabeaufforderung dauert. In vielen Fällen kann ein anderes Sprachmodell, ein anderer API-Anbieter oder sogar eine Eingabeaufforderung verwendet werden, um die Kosten für die Inferenz zu senken. OpenAI bietet beispielsweise eine Vielzahl von Modellen mit Preisen zwischen 0,0005 und 0,15 US-Dollar pro 1.000 Token, was einem 300-fachen Unterschied entspricht. Sie können sich für die Kosten auch bei anderen Anbietern umsehen, z. B. AI21 Labs, Cohere und Textsynth.
Glücklicherweise bieten die meisten API-Anbieter vergleichbare Schnittstellen an. Mit etwas Arbeit können Sie eine Abstraktionsebene aufbauen, die problemlos auf andere APIs angewendet werden kann. Python-Pakete wie LangChain haben bereits die meiste Arbeit für Sie erledigt. Allerdings müssen Sie nur dann zwischen Qualität und Kosten wählen, wenn Sie über einen systematischen Prozess zur Auswahl des effizientesten LLM für jede Arbeit verfügen.
Forscher der Stanford University stellen eine Lösung vor, die die LLM-API-Gebühren innerhalb eines finanziellen Rahmens hält. Sie bieten drei Techniken: schnelle Anpassung, LLM-Kaskade und LLM-Approximation. Obwohl diese Verfahren noch nicht im Produktionskontext getestet wurden, sind vorläufige Ergebnisse ermutigend.
Schnelle Anpassung
Für alle LLM-APIs gibt es einen Kostenplan, der auf der Dauer der Eingabeaufforderung basiert. Daher besteht die einfachste Lösung zur Reduzierung der API-Nutzungskosten darin, Ihre Eingabeaufforderungen abzukürzen. Es gibt verschiedene Möglichkeiten.
LLMs erfordern für zahlreiche Aktivitäten eine Eingabeaufforderung mit wenigen Schüssen. Es wäre hilfreich, wenn Sie Ihrer Eingabeaufforderung ein paar Beispiele voranstellen würden, um die Leistung des Modells zu steigern, häufig im Eingabeaufforderungs->Antwortstil. Frameworks wie LangChain bieten Tools zum Erstellen von Vorlagen mit einigen Beispielen.
Da LLMs immer längere Kontexte bieten, können Entwickler riesige Vorlagen mit wenigen Aufnahmen entwerfen, um die Genauigkeit des Modells zu erhöhen. Das Modell erfordert jedoch möglicherweise weniger Instanzen.
Die Forscher schlagen eine „prompte Auswahl“ vor, bei der es darum geht, die wenigen Stichproben auf ein absolutes Minimum zu reduzieren und gleichzeitig die Ausgabequalität beizubehalten. Selbst das Entfernen von 100 Token aus der Vorlage kann bei wiederholter Verwendung zu erheblichen Einsparungen führen.
Eine weitere von ihnen empfohlene Methode ist die „Abfrageverkettung“, bei der Sie zahlreiche Eingabeaufforderungen zu einer kombinieren und das Modell mehrere Ergebnisse in einem einzigen Aufruf erstellen lässt. Auch dies funktioniert sehr gut mit der Eingabeaufforderung für wenige Schüsse. Wenn Sie Ihre Fragen einzeln per E-Mail senden, müssen Sie jeder Eingabeaufforderung die wenigen Proben beifügen. Wenn Sie Ihre Eingabeaufforderungen jedoch verketten, müssen Sie den Kontext nur einmal bereitstellen und erhalten viele Antworten in der Ausgabe.
SparsamGPT
Die Forscher verwendeten FrugalGPT, das 12 verschiedene APIs von OpenAI, Textsynth, Cohere, AI21 Labs und ForeFrontAI nutzt, um die LLM-Kaskadentechnik durchzuführen.
Es werden faszinierende Möglichkeiten für LLM-Anwendungen aufgezeigt. Während sich diese Studie auf die Kosten konzentriert, können ähnliche Methoden verwendet werden, um andere Probleme wie Risikokritikalität, Latenz und Datenschutz anzugehen.
LLM-Näherung
Eine weitere Maßnahme zur Kostensenkung besteht darin, die Anzahl der API-Aufrufe an das LLM zu begrenzen. Die Forscher raten dazu, teure LLMs „durch günstigere Modelle oder Infrastruktur“ anzunähern.
Eine Möglichkeit zur Annäherung an LLMs besteht in der Verwendung eines „Completion Cache“, der die Eingabeaufforderungen und Antworten des LLM auf einem Zwischenserver speichert. Wenn ein Benutzer eine Frage stellt, die mit einer bereits zwischengespeicherten Frage identisch oder ähnlich ist, erhalten Sie die zwischengespeicherte Antwort, anstatt das Modell erneut anzufordern. Obwohl die Erstellung eines Abschlusscaches einfach ist, gibt es einige erhebliche Nachteile. Erstens beeinträchtigt es die Originalität und Variabilität des LLM. Zweitens wird seine Anwendbarkeit dadurch bestimmt, wie ähnlich die Anforderungen verschiedener Benutzer sind. Drittens kann der Cache von Bedeutung sein, wenn die gespeicherten Hinweise und Antworten unterschiedlich sind. Schließlich ist das Aufbewahren von Antworten nur dann effizient, wenn die Ausgabe des LLM kontextabhängig ist.
LLM-Kaskade
Eine komplexere Option wäre der Aufbau eines Systems, das für jede Frage die richtige API auswählt. Das System kann so optimiert werden, dass es den kostengünstigsten LLM auswählt, der die Anfrage des Benutzers beantworten kann, anstatt alles an GPT-4 zu senden. Dies kann sowohl zu Kosteneinsparungen als auch zu einer verbesserten Leistung führen.