Wie Sie generative KI am besten in Ihr Produkt integrieren, haben wir im vorigen Artikel besprochen. Jetzt möchten wir mit Ihnen teilen, wie viel das kosten wird. Dabei wird nicht auf die Kosten für die Entwicklung der eigentlichen Software eingegangen, die das UI/UX-Design, die API-Integration, die Frontend- und Backend-Entwicklung usw. umfasst. Wir konzentrieren uns hier ausschließlich auf die Kosten für die Integration der generativen KI.
Die wichtigsten Faktoren, die die Kosten für die Implementierung von generativer KI beeinflussen, sind die Wahl des Modells und die Art und Weise, wie es implementiert werden soll. Beginnen wir mit den Kosten für die Integration von LLM.
Die Kosten für die Integration von LLM hängen vom gewählten Anbieter ab. Beispielsweise kostet eine Antwort mit 500 Wörtern bei GPT-4 8,4 Cent und bei Llama 2 nur 0,07 Cent.
Warum unterscheiden sich die Preise? Die endgültigen Kosten hängen von drei Faktoren ab: von den Fähigkeiten des Modells, von der Größe der Ein- und Ausgänge und von der Größe des Kontextfensters. Der erste Aspekt wird später behandelt. Zunächst wollen wir uns auf die Ein-/Ausgabe und das Kontextfenster konzentrieren.
Um es auf den Punkt zu bringen: Input sind die Daten, die an das Modell übergeben werden, um verarbeitet zu werden. Man kann sich das wie eine Geschichte vorstellen, die man einem Freund erzählt. Nachdem der LLM die Eingabe erhalten hat, gibt er Ihnen mit Hilfe seines vorhandenen Wissens eine Antwort (so wie Ihr Freund eine Antwort auf das gibt, was Sie gesagt haben). Diese Antwort ist die Ausgabe.
Die maximale Textmenge, die ein Modell berücksichtigen kann, um eine Antwort zu geben, wird als "Kontextfenster" bezeichnet. Das heißt, wenn Sie dem LLM zu viele Informationen auf einmal geben, z.B. eine sehr lange Geschichte, wird das Modell die vorhergehenden Informationen vergessen, was sich auf die Relevanz der endgültigen Ausgabe auswirkt.
Die Zählung und Berechnung der Eingabe, der Ausgabe und des Kontextfensters erfolgt in Tokens. Token sind Zeichen, Wörter oder andere Segmente von Text oder Code. Sie können von einem LLM verarbeitet werden. Zur Orientierung: Ein Absatz mit 750 Wörtern entspricht etwa 1.000 Token.
Je komplexer das Modell, desto höher der Preis. Hier ist zum Beispiel ein Vergleich zwischen GPT-3.5 Turbo und GPT-4 Turbo:
Wie Sie sehen können, ist GPT-3.5 weniger leistungsfähig, aber auch billiger. Die erweiterten Funktionen von GPT-4 Turbo werden für Ihre KI-gesteuerte Anwendung möglicherweise nicht benötigt. In diesem Fall könnte der 16.000 Token umfassende Kontext von GPT-3.5 Turbo für Ihre Anforderungen völlig ausreichend sein und Sie können sich getrost für die kostengünstigere Option entscheiden. Benötigt Ihre KI-fähige Lösung jedoch ein größeres Kontextfenster und aktuelle Informationen, ist GPT-4 Turbo vorzuziehen, da es auf Daten bis April 2023 trainiert wurde und eine Kontextgröße von 128.000 Token unterstützt.
Damit ist die Geschichte aber noch nicht zu Ende. Es gibt viele Alternativen. Werfen wir einen Blick auf die verschiedenen LLM-Anbieter. Vergleichen wir ihre Preise und LLM-Funktionen.
Alle LLM-Modelle können in Open-Source-Modelle, die frei verfügbar und modifizierbar sind, und kommerzielle (proprietäre) Modelle, die APIs gegen eine bestimmte Gebühr anbieten, unterteilt werden.
Auf den ersten Blick könnte man meinen: Open-Source-Modelle sind billiger, weil man dafür nichts bezahlen muss. Das ist aber nicht ganz richtig. Sie zahlen zwar nicht für das Modell selbst, aber Sie müssen erhebliche Ressourcen für den Aufbau der Infrastruktur vor Ort oder in der Cloud und für die Verwaltung der Infrastruktur auf eigene Kosten aufwenden.
In diesem Fall umfassen die Kosten für die generative KI auch die Kosten für das Computing, wie z. B. den Wert der speziellen Hardware, die relativ teuer ist, und die Cloud-Dienste. Vor diesem Hintergrund könnte ein kommerzielles KI-Modell integriert werden, um eine kostengünstigere Option zu schaffen.
Lassen Sie uns einen Blick auf das neueste und am weitesten fortgeschrittene Modell der offenen KI werfen - GPT 4o. Dabei handelt es sich um ein kommerzielles KI-Modell, bei dem die Kosten für eine Million Input-Token bei 5 $ und für eine Million Output-Token bei 15 $ liegen.
Verglichen mit GPT-4 Turbo ist GPT-4o viel billiger. Aber noch einmal: Es ist nicht nur eine Frage der Wahl zwischen diesen beiden Optionen. Die Besonderheiten Ihres Projekts sind entscheidend für Ihre endgültige Entscheidung. Wenn Sie also mit GPT-3.5 Turbo zufrieden sind, entscheiden Sie sich dafür.
Gemini 1.5 Flash von Google ist ein weiteres kommerzielles Modell, das wir hervorheben möchten. Dabei handelt es sich um ein multimodales Modell (das sowohl Text als auch Multimedia verarbeiten kann), das pro Zeichen abgerechnet wird. Die Zeichen werden nach UTF-8-Codepunkten ohne Leerzeichen gezählt, was zu etwa 4 Zeichen pro Token führt, wie auf der offiziellen Website erklärt wird. Gemini 1.5 Flash kostet also $0.000125 pro 1K Zeichen Eingabe und $0.000375 pro 1K Zeichen Ausgabe. Zum Vergleich: GPT-4o kostet $0.01 pro 1K Zeichen Eingabe und $0.02 pro 1K Zeichen Ausgabe.
Nachdem wir nun gesehen haben, wie sich einige populäre Modelle unterscheiden und was sie kosten, ist es an der Zeit, mit der Implementierung zu beginnen. In dieser Phase müssen Sie den LLM an die Bedürfnisse Ihres Projekts anpassen. Er muss genau auf die Eingaben der Benutzer reagieren. Dazu gibt es zwei Möglichkeiten: die Feinabstimmung des Modells oder die Implementierung von RAG.
Sie müssen eine Schnittstelle zu den LLM-Modellen schaffen, um eine KI-fähige Anwendung zu erstellen. Wenn Sie die Eingabeaufforderung mit zu vielen Informationen überfrachten (was Ihnen übrigens in Rechnung gestellt wird), kann dieser Prozess kostspielig werden. Um die Antwortzeiten des Modells zu verbessern, können die Entwickler eine Feinabstimmung vornehmen. Oder sie implementieren Retrieval-Augmented Generation (RAG). Betrachten wir beide Möglichkeiten im Detail.
RAG ist eine fortschrittliche Technologie, die die Fähigkeiten von LLMs durch deren Verknüpfung mit externen Quellen wie Dokumenten und Datenbanken zum Abrufen kontextbezogener und aktueller Informationen erweitert. Ohne das Modell neu trainieren zu müssen, können Entwickler das ursprüngliche Wissen von LLMs mit spezifischen Informationen erweitern.
Der Kerngedanke von RAG ist das Abrufen nur der Daten, die für LLM zur Bereitstellung einer relevanten Ausgabe erforderlich sind. Auf diese Weise wird das System nicht mit unnötigen Daten überlastet, was wiederum die Kosten senkt, da nicht für Token bezahlt werden muss, die von der LLM gar nicht benötigt werden.
RAG besteht aus drei Schritten: Indexierung, Retrieval und Generierung. Hier ein kurzer Überblick.
Sie können LangChain verwenden, um den Prozess der RAG-Implementierung zu rationalisieren. Es handelt sich dabei um ein Framework, das eine Reihe von Bausteinen zur Verfügung stellt, um die Implementierung von RAG zu vereinfachen und zu beschleunigen. Dazu gehören Komponenten wie Prompt-Templates, Output-Parser, Text-Splitter, Agenten, Tools, Ketten und mehr, die es überflüssig machen, alles von Grund auf neu zu entwickeln. Das Ergebnis ist eine Beschleunigung und Vereinfachung der Entwicklung von LLM-basierten Anwendungen.
Die Verwendung von LangChain Komponenten für die Implementierung von RAG ist kostenlos, bedingt jedoch die Implementierung einer Vektordatenbank, einer Komponente zur schnelleren Generierung von Ausgaben durch LLMs.
Wie bereits erwähnt, ermöglichen Vektordatenbanken einen schnellen Zugriff auf relevante Informationen, was sie zu einer optimalen Lösung für Anwendungen macht, die auf dem Lebenslangen Lernen basieren.
Wenn Sie auf der Suche nach einer Vektordatenbank zur Integration in Ihre Anwendung sind, haben Sie die Wahl zwischen kostenlosen und kostenpflichtigen Lösungen. Chroma z.B. ist eine Open Source Vektordatenbank, die Werkzeuge zur Verfügung stellt, um Dokumente einzubetten und abzufragen, Einbettungen zu speichern und zu durchsuchen und mehr. Ein anderes Beispiel ist Pinecone. Pinecone ist zwar kostenpflichtig, bietet aber eine vollständig verwaltete Infrastruktur und fortschrittliche Funktionen, um große Datensätze nahtlos zu verarbeiten.
Wenn Sie sich für die Feinabstimmung eines KI-Modells entscheiden, bedeutet dies, dass Sie ein vortrainiertes LLM-Modell nehmen und seine Parameter anpassen. So erhalten Sie eine benutzerdefinierte Version, die auf Ihren spezifischen Kontext zugeschnitten ist und die Menge der Informationen reduziert, die bei jeder Eingabeaufforderung benötigt wird. Wenn Sie ein fein abgestimmtes Modell verwenden, müssen Sie nicht immer und immer wieder die gleichen Daten eingeben, da ein großer Teil dieser Daten bereits Teil des trainierten Modells ist.
Die Feinabstimmung bringt jedoch einige Herausforderungen mit sich, die Sie kennen sollten. Erstens ist sie teuer, da sie erhebliche Rechenressourcen erfordert, und zweitens kann es vorkommen, dass Ihnen die Feinabstimmung selbst berechnet wird. Wenn Sie sich z.B. entscheiden, eines der am meisten gehypten LLM-Modelle unserer Zeit - die Lösungen von OpenAI - verfeinern zu lassen, müssen Sie folgendes bezahlen:
Zweitens kann das richtige Tuning des Modells eine Herausforderung sein. Als kostengünstigen und einfachen Ansatz, um das Modell mit frischen Daten zu verknüpfen, setzen die meisten Unternehmen derzeit auf RAG.
Ist die Entscheidung für die Implementierung von RAG in Ihrem KI-Projekt gefallen, ist der nächste und letzte Schritt die Bereitstellung.
Sie können Ihre LLM-basierte Anwendung auf zwei Arten bereitstellen:
LangChain selbst ist kostenlos. Das LangChain-Ökosystem bietet jedoch zusätzliche Dienste wie LandServe und LangSmith. LangServe ist eine Plattform zur Vereinfachung der Bereitstellung von LLM-basierten Lösungen, während LangSmith eine einheitliche Lösung für die Entwicklung, Bereitstellung, das Testen und die Überwachung von KI-fähigen Anwendungen ist. Es bietet vier Preispläne für verschiedene Teams - Startups, Developer, Plus und Enterprise. Hier ein kurzer Überblick über diese Pläne.
Beachten Sie, dass die Kosten für LangSmith/LangServe in die Gesamtkosten Ihres KI-Projekts einfließen, wenn Sie sich für LangSmith/LangServe entscheiden. In diesem Szenario investieren Sie jedoch in spezielle Funktionen, die den Bereitstellungsprozess beschleunigen.
Passt diese Option nicht in Ihr Budget, erwägen Sie kostengünstigere Lösungen, wie z.B. die Bereitstellung Ihrer Anwendung auf GCP mit benutzerdefiniertem Backend. Im Gegensatz zu LangSmith werden Ihnen bei diesem Ansatz keine speziellen Monitoring-Tools zur Verfügung gestellt, aber Sie haben die volle Kontrolle über die Bereitstellung und die Beobachtbarkeit. Bei Modeso setzen wir GCP für die meisten unserer Anwendungen ein und verwalten die Paketierung, das Deployment und das Monitoring selbst.
LangFuse ist eine weitere Alternative, um spezialisierte Überwachungsmöglichkeiten zu erhalten. Es handelt sich dabei um eine Open Source LLM-Engineering-Plattform, die einen umfassenden Satz an Funktionen für das Monitoring, die Analyse und das Experimentieren bietet. Sie können LangFuse auf GCP nutzen und zahlen nur die Infrastrukturkosten für den Betrieb der LangFuse-Anwendung.
Damit haben wir alle Kosten abgedeckt, die mit der Integration eines Gen AI-Modells in Ihre Anwendung verbunden sind. Schauen wir uns nun an, wie Sie diese Kosten optimieren können.
Wenn Sie mit KI Modellen arbeiten, ist das Kostenmanagement von entscheidender Bedeutung, da Sie LLMs und andere Dienste nutzen, die nicht kostenlos zu haben sind. Im Folgenden sind einige Strategien aufgeführt, die Ihnen bei der Kontrolle und Optimierung der Kosten behilflich sind.
Entscheiden Sie sich nicht für das teuerste Modell wie GPT-4 Turbo, nur weil es „das beste und fortschrittlichste Modell auf dem Markt“ ist. Es könnte sich herausstellen, dass es für Ihr Projekt gar nicht notwendig ist. Überlegen Sie sich lieber genau, welche Aufgaben Ihre generative KI erledigen soll, und wählen Sie ein Modell, das diese Aufgaben gut bewältigen kann. Wenn sich Ihre KI-basierte Anwendung zum Beispiel mit einfachen Abfragen beschäftigt, verwenden Sie ein kostengünstigeres LLM, das in der Lage ist, diese Abfragen ohne Qualitätseinbußen zu bearbeiten.
Der Retrieval-Mechanismus - eine Kernkomponente von RAG - minimiert die Redundanz von Daten und stellt sicher, dass nur relevante Informationen an das Modell weitergeleitet werden. Das Ergebnis ist eine Reduzierung der Kontextgröße und der Gesamtkosten für die Verarbeitung. Darüber hinaus greift Ihre KI-basierte Lösung mit RAG auf die aktuellsten Daten zu, wodurch die Ausgabe kontextbezogener und spezifischer wird.
Die meisten Modelle arbeiten auf einer "Pay-as-you-go"-Basis (und ihre Preise ändern sich). Daher sollten Sie Ihren Prompt-Engineering-Ansatz kontinuierlich verfeinern, um die Qualität aufrechtzuerhalten und gleichzeitig unnötige Verarbeitung zu reduzieren. Behalten Sie Ihr Projekt während des Wachstums im Auge, um es an sich ändernde Anforderungen anzupassen und mögliche Bereiche für Optimierungen zu identifizieren.
Sie wissen nun, mit welchen Kosten Sie bei der Integration von generativer KI rechnen müssen und wie Sie diese minimieren können. Wenn Sie mit dem, was auf Sie zukommt, einverstanden sind, lassen Sie uns über Ihr KI-Projekt sprechen.