Was kostet ein LLM-API-Call wirklich? Tokens, Caching und Batch erklärt
Wer eine Anwendung gegen die OpenAI-, Anthropic- oder Google-API baut, stößt früher oder später auf die Frage: Was kostet das eigentlich? Die offiziellen Preislisten sind transparent, aber sie verraten nicht, wie sich die Kosten in einer echten Konversation entwickeln. Dieser Guide erklärt die Mechanik dahinter — von Tokens über Input/Output bis zu Caching, Batch und Overhead — und schließt mit einer Beispielrechnung, die zeigt, warum Chatbot-Kosten oft höher ausfallen als gedacht.
1. Was sind Tokens und wie werden sie berechnet?
Ein Token ist die kleinste Einheit, in die ein Sprachmodell Text zerlegt. Er ist kein Wort und kein Buchstabe, sondern eine Subword-Einheit — typischerweise 3 bis 5 Zeichen lang, oft eine Silbe oder ein häufig vorkommendes Fragment. Englische Texte landen meist bei rund vier Zeichen pro Token, deutsche Texte wegen der vielen Komposita und Umlaute eher bei drei.
Beispiel: Der Satz "Künstliche Intelligenz verändert die Arbeitswelt." wird je nach Modell in 9 bis 12 Tokens zerlegt. Allein das ä in „verändert“ kann je nach Tokenizer als eigene Einheit gezählt werden, weil es seltener vorkommt als im englischen Trainingsdaten-Korpus.
Wichtig: Jeder Anbieter nutzt einen eigenen Tokenizer. OpenAI verwendet die tiktoken-Bibliothek, Anthropic und Google haben proprietäre Verfahren. Derselbe Text kann bei OpenAI 140 Tokens ergeben und bei Claude 180. Wer modellübergreifend kalkulieren will, sollte die Token-Anzahl pro Modell separat ermitteln.
Kosten-Aufschlüsselung (pro Anfrage)
2. Input-Tokens vs. Output-Tokens
Bei jeder API-Anfrage entstehen zwei Posten: Input-Tokens (alles, was du an die KI schickst — System-Prompt, Nutzer-Frage, Chat-Verlauf) und Output-Tokens (die Antwort der KI). Beide werden separat abgerechnet, und Output ist typisch 4–5x teurer als Input.
Der Grund: Output-Tokens kosten den Anbieter mehr Rechenleistung. Beim Verarbeiten des Inputs analysiert das Modell den gesamten Text einmal in einem Schwung. Beim Output muss es Token für Token sequenziell generieren — jedes neue Token braucht einen vollständigen Rechen-Durchlauf durch das Modell. Das skaliert nicht linear.
Praktische Konsequenz: Wenn deine Anwendung lange KI-Antworten produziert (etwa Zusammenfassungen oder kreative Texte), dominieren Output-Kosten. Bei Klassifikations- oder Routing-Aufgaben (kurze Antworten, viel Kontext) dominieren Input-Kosten.
3. Konversationen: Warum jede Anfrage den ganzen Verlauf mitschickt
Hier liegt der größte Kosten-Stolperstein. Ein LLM hat kein Gedächtnis zwischen API-Calls. Damit eine Chat-KI weiß, worüber gerade gesprochen wurde, muss bei jeder neuen Nachricht der komplette bisherige Verlauf mitgesendet werden — inklusive System-Prompt, allen früheren Nutzer-Nachrichten und allen früheren KI-Antworten.
Konkret: Wenn ein Chatbot mit einem 800-Token-System-Prompt und 5 Nachrichten-Wechseln läuft, wird der System-Prompt fünfmal abgerechnet — einmal pro Anfrage. Jede neue Nutzer-Frage trägt nicht nur ihren eigenen Text bei, sondern den gesamten Stapel davor.
Mathematisch ist das ein quadratisches Wachstum: Eine Konversation mit 10 Runden kostet nicht 10x so viel wie eine mit einer Runde, sondern oft 30–50x so viel. Das ist der Grund, warum produktiv betriebene Chatbots ohne Optimierung schnell teuer werden.
4. Cached Input und Batch-Pricing — die zwei wichtigsten Hebel
Prompt Caching: bis zu 90 % Rabatt auf wiederholte Inputs
Sowohl OpenAI als auch Anthropic bieten Prompt Caching an. Die Idee: Der Anbieter merkt sich den Anfang einer Anfrage (typisch den System-Prompt) für 5 bis 10 Minuten in einem Cache. Kommt innerhalb dieser Zeit eine weitere Anfrage mit identischem Anfang, werden die gecachten Tokens nicht neu verarbeitet, sondern aus dem Cache geholt — und mit etwa 10 % des normalen Preises berechnet (also 90 % Rabatt auf den gecachten Teil).
Wichtig: Der Rabatt gilt nur für den gecachten Anteil, nicht für die gesamte Anfrage. Bei einem 800-Token-System-Prompt in einer 2.000-Token-Anfrage wird der System-Prompt günstiger, der Rest der Anfrage bleibt zum Normalpreis. Die tatsächliche Kostenersparnis liegt typisch zwischen 20 und 40 %, nicht bei 90 %.
Batch API: 50 % Rabatt für asynchrone Workloads
Wenn Antworten nicht in Echtzeit gebraucht werden — etwa bei nächtlichen Datenanalysen, Massenklassifikation oder automatischer Übersetzung — bietet die Batch API einen flachen 50 %-Rabatt auf Input und Output. Im Gegenzug akzeptierst du, dass Ergebnisse innerhalb von 24 Stunden geliefert werden, nicht in Sekunden.
Caching und Batch lassen sich kombinieren. Bei richtig aufgesetzten Pipelines sind kombinierte Ersparnisse von 60–70 % realistisch.
5. Context Window, Max Output und Overhead-Tokens
Drei Begriffe, die in Preislisten auftauchen und oft verwechselt werden:
- Context Window — die maximale Anzahl an Tokens, die ein Modell insgesamt in einer einzigen Anfrage verarbeiten kann (Input + Output zusammen). Aktuelle Modelle wie Claude Sonnet 4.6 oder GPT-5.4 bieten 200K bis 1M Tokens. Sobald deine Konversation darüber hinausgeht, schlägt die API fehl — du musst den Verlauf zusammenfassen oder kürzen.
- Max Output — die maximale Länge einer einzelnen Antwort. Liegt typisch bei 8K bis 128K Tokens, also deutlich niedriger als das Context Window. Auch dann, wenn theoretisch noch Platz wäre.
- Overhead-Tokens — unsichtbare Steuerzeichen, die jede Nachricht bekommt. Das Modell muss wissen, wo eine Nachricht anfängt, welche Rolle sie hat (System, User, Assistant) und wo sie endet. Faustregel: 3 Tokens pro Nachricht plus 3 Tokens für die Anfrage. Bei einem Chat mit 6 Nachrichten sind das 6×3+3 = 21 zusätzliche Tokens, die du nirgendwo siehst, aber bezahlst.
6. Beispielrechnung: Customer-Support-Chatbot mit 5 Turns
Genug Theorie. Schauen wir uns einen realistischen Anwendungsfall an: ein Support-Chatbot auf Basis von Claude Sonnet 4.6 ($3 / $15 pro 1M Tokens, gecachter Input $0,30).
Annahmen:
- System-Prompt: 800 Tokens (Persona, Anweisungen, Knowledge-Snippet)
- Pro Turn: 50 Tokens Nutzer-Frage + 200 Tokens KI-Antwort
- 5 Turns Konversation, kumulative Berechnung
| Turn | Input | Overhead | Output | Summe Turn |
|---|---|---|---|---|
| 1 | 850 | 9 | 200 | 1.059 |
| 2 | 1.100 | 15 | 200 | 1.315 |
| 3 | 1.350 | 21 | 200 | 1.571 |
| 4 | 1.600 | 27 | 200 | 1.827 |
| 5 | 1.850 | 33 | 200 | 2.083 |
| Total | 6.750 | 105 | 1.000 | 7.855 |
Drei Kosten-Szenarien für genau diese Konversation:
| Szenario | Pro Konversation | Bei 100.000 Konv./Monat |
|---|---|---|
| Standard (kein Caching, kein Batch) | $0,0356 | $3.560 |
| Mit Prompt-Caching (System-Prompt cached ab Turn 2) | $0,0269 | $2.692 |
| Mit Caching + Batch-API (50 % Rabatt) | $0,0135 | $1.346 |
Zwei Beobachtungen aus der Tabelle:
- Caching allein bringt etwa 24 % Ersparnis — nicht 90 %, weil nur der System-Prompt-Anteil profitiert. Bei längeren System-Prompts oder mehr Turns wird der Effekt größer.
- Caching + Batch zusammen erreichen rund 62 % Ersparnis. Wer beide Optimierungen einsetzen kann (also Echtzeit nicht zwingend braucht), spart in dieser Größenordnung von $2.200/Monat — genug, um die Investition in eine vernünftige Caching-Logik mehrfach zu rechtfertigen.
Fazit
Token-Kosten sind nicht magisch, sie folgen klaren Regeln. Wer die drei Mechaniken — Tokenisierung, Konversations-Akkumulation und Spezialpreise — verstanden hat, kann Budgets realistisch planen und Optimierungen gezielt einsetzen. Wichtigste Erkenntnisse:
- Output ist 4–5x teurer als Input — kurze Antworten sparen am meisten.
- Bei Konversationen wachsen die Kosten quadratisch, nicht linear.
- Prompt Caching senkt Kosten typisch um 20–40 %, Batch um 50 %.
- Overhead-Tokens sind unsichtbar, aber zählbar — und in Massen relevant.
Glossar
- Batch API
- Asynchroner Verarbeitungsmodus mit 50 % Rabatt auf Input und Output. Antworten kommen innerhalb von 24 Stunden statt in Echtzeit.
- Cached Input
- Eingabe-Tokens, die bereits in einem früheren Call verarbeitet und vom Anbieter zwischengespeichert wurden. Werden mit etwa 10 % des normalen Preises berechnet.
- Context Window
- Maximale Anzahl Tokens, die ein Modell in einer einzelnen Anfrage verarbeiten kann (Input + Output zusammen).
- Input-Token
- Token, das an die KI gesendet wird — alles was im Prompt steht: System-Prompt, Nutzer-Nachricht, Chat-Verlauf.
- Max Output
- Maximale Token-Anzahl, die das Modell in einer einzelnen Antwort produzieren kann. Liegt unter dem Context Window.
- Output-Token
- Token, das die KI in ihrer Antwort generiert. Typisch 4–5x teurer als Input.
- Overhead-Tokens
- Unsichtbare Steuer-Tokens, die jede Nachricht in einer Chat-Anfrage bekommt — typisch 3 pro Nachricht plus 3 für die Gesamt-Anfrage.
- Prompt Caching
- Mechanismus, mit dem Anbieter wiederkehrende Prompt-Anteile (typisch System-Prompts) zwischenspeichern und bei der nächsten Anfrage zum Cached-Preis abrechnen.
- System-Prompt
- Die Anweisung am Anfang einer KI-Anfrage, die das Verhalten des Modells festlegt (Persona, Antwortstil, Einschränkungen). Wird bei jeder Anfrage einer Konversation erneut mitgesendet.
- Token
- Kleinste Verarbeitungseinheit eines Sprachmodells. Subword-basiert, typisch 3–5 Zeichen lang. Jeder Anbieter hat seinen eigenen Tokenizer.
- Tokenizer
- Algorithmus, der Text in Tokens zerlegt. OpenAI nutzt
tiktoken, andere Anbieter haben proprietäre Verfahren.
Stand der Preisangaben: Mai 2026. Aktuelle Tarife jederzeit auf den offiziellen Seiten der Anbieter prüfen.
