Faustregel Für Englisch: 1 Token ≈ 4 Zeichen oder 0,75 Wörter. Für Deutsch eher: 1 Token ≈ 3 Zeichen oder 0,6 Wörter. Sonderzeichen, Emojis und Code erzeugen überproportional viele Tokens.
0 / 10.000
02.0004.0006.0008.000
Tokens 0
Zeichen / Wörter 0 0 Wörter
Geschätzte Kosten  

Kosten-Aufschlüsselung (pro Anfrage)

Input
Output
Gesamt
Turn Input Overhead Output Summe Turn
185092001.059
21.100152001.315
31.350212001.571
41.600272001.827
51.850332002.083
Total6.7501051.0007.855
Szenario Pro Konversation Bei 100.000 Konv./Monat
Standard (kein Caching, kein Batch)$0,0356$3.560
Mit Prompt-Caching (System-Prompt cached ab Turn 2)$0,0269$2.692
Mit Caching + Batch-API (50 % Rabatt)$0,0135$1.346
Was das bedeutet Die Default-Implementierung eines Chatbots (kein Caching, kein Batch, alles Echtzeit) ist die teuerste Variante. Wer Kosten ernst nimmt, baut Caching von Anfang an ein — bei OpenAI und Anthropic ist es eine simple Header-Einstellung. Batch ist nur dort relevant, wo die Antwortzeit unkritisch ist.
Batch API
Asynchroner Verarbeitungsmodus mit 50 % Rabatt auf Input und Output. Antworten kommen innerhalb von 24 Stunden statt in Echtzeit.
Cached Input
Eingabe-Tokens, die bereits in einem früheren Call verarbeitet und vom Anbieter zwischengespeichert wurden. Werden mit etwa 10 % des normalen Preises berechnet.
Context Window
Maximale Anzahl Tokens, die ein Modell in einer einzelnen Anfrage verarbeiten kann (Input + Output zusammen).
Input-Token
Token, das an die KI gesendet wird — alles was im Prompt steht: System-Prompt, Nutzer-Nachricht, Chat-Verlauf.
Max Output
Maximale Token-Anzahl, die das Modell in einer einzelnen Antwort produzieren kann. Liegt unter dem Context Window.
Output-Token
Token, das die KI in ihrer Antwort generiert. Typisch 4–5x teurer als Input.
Overhead-Tokens
Unsichtbare Steuer-Tokens, die jede Nachricht in einer Chat-Anfrage bekommt — typisch 3 pro Nachricht plus 3 für die Gesamt-Anfrage.
Prompt Caching
Mechanismus, mit dem Anbieter wiederkehrende Prompt-Anteile (typisch System-Prompts) zwischenspeichern und bei der nächsten Anfrage zum Cached-Preis abrechnen.
System-Prompt
Die Anweisung am Anfang einer KI-Anfrage, die das Verhalten des Modells festlegt (Persona, Antwortstil, Einschränkungen). Wird bei jeder Anfrage einer Konversation erneut mitgesendet.
Token
Kleinste Verarbeitungseinheit eines Sprachmodells. Subword-basiert, typisch 3–5 Zeichen lang. Jeder Anbieter hat seinen eigenen Tokenizer.
Tokenizer
Algorithmus, der Text in Tokens zerlegt. OpenAI nutzt tiktoken, andere Anbieter haben proprietäre Verfahren.

Stand der Preisangaben: Mai 2026. Aktuelle Tarife jederzeit auf den offiziellen Seiten der Anbieter prüfen.