Kosten-Management - Überwachen & Optimieren
In diesem Kapitel lernen Sie, wie Sie die Kosten für OpenAI-Nutzung verstehen, überwachen und optimieren können.
💰 Wie funktioniert die Abrechnung?
Pay-as-you-go Modell
OpenAI rechnet nach dem Pay-as-you-go Prinzip ab:
- Sie zahlen nur für das, was Sie wirklich nutzen
- Keine Grundgebühr, keine Abo-Kosten
- Abrechnung erfolgt pro Token
Was sind Tokens?
Tokens sind die kleinsten Einheiten, die OpenAI verarbeitet:
- 1 Token ≈ 4 Zeichen
- 1 Token ≈ 0,75 Wörter (im Deutschen)
Beispiele:
"Hallo" = 2 Tokens
"Wie geht es dir?" = 5 Tokens
"Ich suche eine rote Jacke in Größe M" = 10 Tokens
Online-Tool zum Zählen: OpenAI Tokenizer
📊 Preisübersicht (Stand: Januar 2025)
gpt-4o-mini (Empfohlen für die meisten Fälle)
| Token-Typ | Preis pro 1 Million Tokens | Preis pro 1.000 Tokens |
|---|---|---|
| Input Tokens | $0.15 | $0.00015 |
| Output Tokens | $0.60 | $0.00060 |
| Cached Input Tokens | $0.075 | $0.000075 |
gpt-4o (Für komplexe Aufgaben)
| Token-Typ | Preis pro 1 Million Tokens | Preis pro 1.000 Tokens |
|---|---|---|
| Input Tokens | $2.50 | $0.0025 |
| Output Tokens | $10.00 | $0.0100 |
| Cached Input Tokens | $1.25 | $0.00125 |
gpt-5 (Neuestes Modell, sehr teuer)
| Token-Typ | Preis pro 1 Million Tokens | Preis pro 1.000 Tokens |
|---|---|---|
| Input Tokens | $10.00 | $0.010 |
| Output Tokens | $30.00 | $0.030 |
| Cached Input Tokens | $5.00 | $0.005 |
o4-mini (Mit Reasoning, variabel)
| Token-Typ | Preis pro 1 Million Tokens | Preis pro 1.000 Tokens |
|---|---|---|
| Input Tokens | $3.00 | $0.003 |
| Reasoning Tokens | $12.00 | $0.012 |
| Output Tokens | $12.00 | $0.012 |
| Cached Input Tokens | $1.50 | $0.0015 |
gpt-4o-mini bietet das beste Preis-Leistungs-Verhältnis für 90% der E-Commerce-Anwendungen!
🧮 Kosten-Rechnung verstehen
Was wird berechnet?
Jede API-Anfrage besteht aus:
1. Input Tokens (Eingabe)
Alles, was an OpenAI gesendet wird:
- ✅ Benutzernachricht (z.B. "Zeig mir rote Jacken")
- ✅ System Instructions (Ihre Agent-Anweisungen)
- ✅ Tool-Beschreibungen (Alle aktivierten Tools)
- ✅ Konversations-Verlauf (Bisherige Nachrichten im Thread)
- ✅ Init Instructions (Begrüßung)
- ✅ Fallback Instructions (Fehlerbehandlung)
Beispiel-Berechnung:
System Instructions: 800 Tokens
Tool Descriptions: 1.200 Tokens (20 Tools)
Conversation History: 500 Tokens
User Message: 15 Tokens
─────────────────────────────────────
Total Input: 2.515 Tokens
Kosten (gpt-4o-mini):
2.515 Tokens × $0.00000015 = $0.000377
2. Output Tokens (Ausgabe)
Alles, was OpenAI zurückgibt:
- ✅ Agent-Antworten
- ✅ Tool-Aufrufe (JSON-Struktur)
Beispiel:
Agent-Antwort: 120 Tokens
Tool Call (JSON): 45 Tokens
─────────────────────────────────────
Total Output: 165 Tokens
Kosten (gpt-4o-mini):
165 Tokens × $0.00000060 = $0.000099
3. Cached Tokens (Zwischengespeichert)
OpenAI speichert häufig genutzte Input-Teile zwischen:
- ✅ System Instructions (bleiben meist gleich)
- ✅ Tool-Beschreibungen (ändern sich selten)
Caching-Ersparnis:
Ohne Cache:
Input: 2.515 Tokens × $0.00000015 = $0.000377
Mit Cache (1.500 Tokens gecacht):
New Input: 1.015 Tokens × $0.00000015 = $0.000152
Cached Input: 1.500 Tokens × $0.00000008 = $0.000120
────────────────────────────────────────────────────
Total: $0.000272
Ersparnis: 28% weniger Kosten!
OpenAI cached automatisch Prompts, die länger als 1.024 Tokens sind und sich wiederholen. Sie müssen nichts tun – es funktioniert automatisch!
📈 Beispiel-Kostenrechnung
Szenario: Produktberater-Agent
Setup:
- Modell:
gpt-4o-mini - System Instructions: 800 Tokens
- 20 Tools aktiviert: 1.200 Tokens
- Durchschnittliche Konversation: 3 Nachrichten
Konversation:
Kunde: "Ich suche eine Winterjacke"
→ Input: 2.015 Tokens (Instructions + Tools + Message)
→ Output: 180 Tokens (Tool call + Antwort)
Kunde: "Habt ihr die auch in blau?"
→ Input: 2.520 Tokens (+ History)
→ Output: 120 Tokens
Kunde: "Perfekt, ich nehme Größe M"
→ Input: 2.650 Tokens (+ History)
→ Output: 95 Tokens
Token-Nutzung Gesamt:
| Typ | Tokens | Preis |
|---|---|---|
| Input (neu) | 3.200 | $0.00048 |
| Input (cached) | 3.985 | $0.00030 |
| Output | 395 | $0.00024 |
| Gesamt | 7.580 | $0.00102 |
Pro Konversation: ca. 0,1 Cent (€0,001)
Hochrechnung:
- Pro Tag (100 Konversationen): $0.10 (9 Cent)
- Pro Monat (3.000 Konversationen): $3.06 (ca. 3 €)
- Pro Jahr (36.000 Konversationen): $36.72 (ca. 35 €)
Mit gpt-4o-mini können Sie tausende Konversationen für wenige Euro pro Monat betreiben!
📉 Kosten optimieren - Top 10 Tipps
1. Nutzen Sie gpt-4o-mini statt gpt-4o
Ersparnis: 90-95%
gpt-4o: $0.015 pro 1.000 Tokens
gpt-4o-mini: $0.0004 pro 1.000 Tokens
────────────────────────────────────────
Ersparnis: 37,5x günstiger!
Wann dennoch gpt-4o nutzen?
- Sehr komplexe Reasoning-Aufgaben
- Mehrsprachige, anspruchsvolle Konversationen
- Fachspezifisches Wissen erforderlich
Test:
Probieren Sie erst gpt-4o-mini. In 90% der Fälle reicht es völlig aus!
2. Deaktivieren Sie nicht benötigte Tools
Problem: Jedes Tool erhöht Input-Tokens
Beispiel:
5 Tools: ~300 Tokens
10 Tools: ~600 Tokens
20 Tools: ~1.200 Tokens
30 Tools: ~1.800 Tokens
Lösung:
Aktivieren Sie nur Tools, die Ihr Agent wirklich braucht.
Produktberater braucht:
- ✅
product_search - ✅
get_product_details - ✅
search_logs - ❌ NICHT:
get_order_status,create_order,send_email
Ersparnis: 30-50% weniger Input-Tokens
3. Kürzen Sie Instructions
Problem: Lange Instructions = hohe Input-Kosten
❌ Schlecht (1.200 Tokens):
Du bist ein freundlicher, hilfsbereiter Produktberater für unseren Online-Shop.
Deine Aufgabe ist es, Kunden bei der Produktauswahl zu unterstützen, Fragen
zu beantworten, Empfehlungen zu geben und sicherzustellen, dass jeder Kunde
das perfekte Produkt findet. Du solltest immer höflich, geduldig und
verständnisvoll sein. Nutze die dir zur Verfügung stehenden Tools, um...
[weitere 800 Tokens]
✅ Gut (300 Tokens):
Du bist Produktberater für Mode. Aufgaben:
- Produkte suchen mit product_search
- Details abrufen mit get_product_details
- Erst search_logs nutzen für häufige Fragen
- Kurze, präzise Antworten
- Bei Unklarheit: nachfragen
Tonalität: Freundlich, hilfsbereit, professionell
Ersparnis: 75% weniger Tokens
Achten Sie darauf, dass Instructions trotzdem klar und präzise bleiben!
4. Nutzen Sie das Log-System
Warum spart das Kosten?
Ohne Logs:
Kunde: "Wie lange dauert Versand?"
→ Agent ruft get_shipping_info auf
→ Input: 2.500 Tokens, Output: 200 Tokens
→ Kosten: $0.00052
Mit Logs:
Kunde: "Wie lange dauert Versand?"
→ Agent findet Antwort in search_logs
→ Input: 1.800 Tokens, Output: 120 Tokens
→ Kosten: $0.00034
Ersparnis: 35% pro Anfrage
Bei häufigen Fragen: 50-70% Ersparnis!
Setup:
search_logsTool aktivieren- FAQ-Einträge erstellen (siehe Wissens-Management)
- In Instructions: "Nutze IMMER zuerst search_logs"
5. Begrenzen Sie Max Output Tokens
Problem: Lange Antworten = hohe Output-Kosten
Lösung:
In der Agent-Konfiguration:
- Max Output Tokens: 500 (statt 4.000)
Beispiel:
Ohne Limit:
Agent schreibt 2.000 Token lange Antwort
→ Kosten: $0.0012
Mit Limit (500):
Agent schreibt maximal 500 Token
→ Kosten: $0.0003
Ersparnis: 75%
Für Produktberatung sind 300-500 Tokens meist völlig ausreichend!
6. Nutzen Sie niedrigere Temperature
Was ist Temperature?
Kreativitäts-Einstellung:
- 0.1-0.5: Konsistent, vorhersehbar, effizienter
- 0.6-1.0: Ausgewogen
- 1.1-2.0: Kreativ, aber mehr Tokens
Kosten-Effekt:
Niedrige Temperature (0.3):
Antwort: "Ja, wir haben die Jacke in Größe M auf Lager."
→ 12 Tokens
Hohe Temperature (1.5):
Antwort: "Gerne! Ich freue mich, dir mitteilen zu können, dass wir diese wunderbare Jacke tatsächlich in der von dir gewünschten Größe M vorrätig haben!"
→ 28 Tokens
Ersparnis: 40-60% weniger Output-Tokens
Empfehlung: Temperature 0.3-0.7 für E-Commerce
7. Vermeiden Sie hohe Reasoning Effort
Problem: high Reasoning Effort ist teuer
Beispiel (o4-mini):
Low Reasoning: 500 Reasoning Tokens
Medium Reasoning: 1.500 Reasoning Tokens
High Reasoning: 5.000 Reasoning Tokens
Kosten (o4-mini, $0.012 pro 1k):
Low: $0.006
Medium: $0.018
High: $0.060
Ersparnis: 90% durch Wechsel von high → low
Empfehlung:
- Standard:
lowodermedium - Nur bei sehr komplexen Aufgaben:
high
8. Threads regelmäßig beenden
Problem: Lange Threads = großer Konversations-Verlauf
Beispiel:
Nachricht 1: 2.500 Input Tokens
Nachricht 2: 2.700 Input Tokens (+ History)
Nachricht 3: 2.950 Input Tokens (+ History)
...
Nachricht 20: 8.000 Input Tokens (+ History)
Lösung:
Beenden Sie Threads nach:
- Abschluss eines Kaufs
- Lösung einer Anfrage
- 10-15 Nachrichten
Frontend-Integration:
// Thread nach erfolgreicher Bestellung beenden
if (orderCompleted) {
createNewThread();
}
Ersparnis: 40-60% bei langen Konversationen
9. Vermeiden Sie unnötige Tool-Aufrufe
Problem: Tool-Aufrufe erhöhen Output-Tokens
Beispiel:
Schlecht:
Agent ruft auf:
1. product_search (alle roten Jacken)
2. product_search (alle blauen Jacken)
3. product_search (alle grünen Jacken)
→ 3 Tool-Aufrufe = 180 Output Tokens
Besser:
Agent ruft auf:
1. product_search (alle Jacken)
→ 1 Tool-Aufruf = 60 Output Tokens
Lösung:
In Instructions:
Nutze Tools effizient. Rufe product_search nur einmal auf und
nutze dann die Ergebnisse. Vermeide mehrfache Aufrufe für
ähnliche Anfragen.
Ersparnis: 50-70% weniger Tool-Aufrufe
10. Setzen Sie Budget-Limits
Warum?
Schützen Sie sich vor:
- Unerwarteten Kosten
- Missbrauch (falls API-Key kompromittiert)
- Bugs (z.B. unendliche Loops)
Setup:
- Gehen Sie zu OpenAI Billing Settings
- Setzen Sie Hard Limit (z.B. $10/Monat)
- Setzen Sie Soft Limit (z.B. $5/Monat → E-Mail-Benachrichtigung)
Beispiel:
Soft Limit: $5 → Sie erhalten E-Mail-Warnung
Hard Limit: $10 → API wird deaktiviert
Empfehlung:
- Klein-Shop: $5-10/Monat
- Mittel-Shop: $20-50/Monat
- Groß-Shop: $100-200/Monat
📊 Kosten überwachen
OpenAI Usage Dashboard
Zugriff: platform.openai.com/usage
Was Sie sehen:
Tagesansicht
- Kosten pro Tag
- Requests pro Tag
- Tokens pro Tag
Modell-Aufschlüsselung
- Welches Modell wird wie viel genutzt?
- Welches Modell kostet am meisten?
Token-Details
- Input Tokens
- Output Tokens
- Cached Tokens
Kosten-Verlauf
- Diagramm der letzten 30 Tage
- Trends erkennen
Shopware Plugin-Logs
Zugriff: 5E OAI Agent Manager → Assistant Logs
Was Sie sehen:
- Kosten pro Konversation
- Token-Nutzung pro Nachricht
- Durchschnittliche Kosten
Analyse:
- Filtern Sie nach Zeitraum (z.B. letzte 7 Tage)
- Sortieren Sie nach "Cost" (teuerste zuerst)
- Identifizieren Sie Ausreißer
Fragen:
- Welche Konversationen waren besonders teuer?
- Warum? (zu viele Tools? langes Gespräch? falsches Modell?)
- Wie können Sie optimieren?
💡 Kosten-Szenarien
Szenario 1: Kleiner Shop (50 Konversationen/Tag)
Setup:
- Modell:
gpt-4o-mini - Tools: 10 Tools
- Durchschnitt: 2.000 Input, 300 Output Tokens
- 50% Cached
Berechnung:
Pro Konversation:
Input (neu): 1.000 × $0.00000015 = $0.00015
Input (cached): 1.000 × $0.00000008 = $0.00008
Output: 300 × $0.00000060 = $0.00018
────────────────────────────────────────────────
Total: $0.00041
Hochrechnung:
Pro Tag: 50 × $0.00041 = $0.02 (2 Cent)
Pro Monat: 1.500 Konversationen = $0.62 (55 Cent)
Pro Jahr: 18.000 Konversationen = $7.44 (7 €)
Budget-Empfehlung: $5/Monat (genug Puffer)
Szenario 2: Mittlerer Shop (300 Konversationen/Tag)
Setup:
- Modell:
gpt-4o-mini - Tools: 15 Tools
- Durchschnitt: 2.500 Input, 400 Output Tokens
- 60% Cached (dank Wissensmanagement)
Berechnung:
Pro Konversation:
Input (neu): 1.000 × $0.00000015 = $0.00015
Input (cached): 1.500 × $0.00000008 = $0.00012
Output: 400 × $0.00000060 = $0.00024
────────────────────────────────────────────────
Total: $0.00051
Hochrechnung:
Pro Tag: 300 × $0.00051 = $0.15 (14 Cent)
Pro Monat: 9.000 Konversationen = $4.59 (4,30 €)
Pro Jahr: 108.000 Konversationen = $55.08 (52 €)
Budget-Empfehlung: $10-20/Monat
Szenario 3: Großer Shop (1.000 Konversationen/Tag)
Setup:
- Modell:
gpt-4o-mini(90%),gpt-4o(10% für komplexe Fälle) - Tools: 20 Tools
- Durchschnitt: 3.000 Input, 500 Output Tokens
- 70% Cached
Berechnung gpt-4o-mini (90%):
Pro Konversation:
Input (neu): 900 × $0.00000015 = $0.00014
Input (cached): 2.100 × $0.00000008 = $0.00017
Output: 500 × $0.00000060 = $0.00030
────────────────────────────────────────────────
Total: $0.00061
Berechnung gpt-4o (10%):
Pro Konversation:
Input (neu): 900 × $0.0000025 = $0.00225
Input (cached): 2.100 × $0.0000013 = $0.00273
Output: 500 × $0.0000100 = $0.00500
────────────────────────────────────────────────
Total: $0.00998
Gesamt:
90% gpt-4o-mini: 900 × $0.00061 = $0.55
10% gpt-4o: 100 × $0.00998 = $1.00
────────────────────────────────────────────
Pro Tag: $1.55
Hochrechnung:
Pro Monat: 30.000 Konversationen = $46.50 (44 €)
Pro Jahr: 360.000 Konversationen = $558 (530 €)
Budget-Empfehlung: $100-150/Monat (genug Puffer für Spitzen)
🎯 ROI (Return on Investment)
Kosten vs. Nutzen
Kosten-Beispiel (mittlerer Shop):
- OpenAI: $5/Monat
- Plugin: einmalig (keine laufenden Kosten)
- Gesamt: $5/Monat
Nutzen:
Ersparnis Kundenservice:
- Annahme: Agent beantwortet 50% aller Anfragen
- 150 Anfragen/Tag × 50% = 75 automatisierte Anfragen
- Zeit pro Anfrage: 5 Minuten
- Ersparnis: 375 Minuten/Tag = 6,25 Stunden
- Mitarbeiter-Kosten: 20 €/Stunde
- Ersparnis: 125 €/Tag = 3.750 €/Monat
Höhere Conversion:
- Kunden erhalten sofort Hilfe (24/7)
- Annahme: 2% höhere Conversion durch bessere Beratung
- Bei 10.000 Besuchern/Monat, 2% Conversion, 80 € AOV:
- Zusätzliche Conversions: 10.000 × 0.02 × 0.02 = 4
- Zusatzumsatz: 4 × 80 € = 320 €/Monat
Gesamtnutzen:
- Ersparnis Kundenservice: 3.750 €
- Zusatzumsatz: 320 €
- Gesamt: 4.070 €/Monat
ROI:
(Nutzen - Kosten) / Kosten × 100
= (4.070 - 5) / 5 × 100
= 81.300%
Die OpenAI-Kosten sind vernachlässigbar im Vergleich zum Nutzen!
📋 Kosten-Optimierungs-Checkliste
- Modell: Nutze
gpt-4o-ministattgpt-4o - Tools: Nur benötigte Tools aktiviert (max. 10-15)
- Instructions: Kurz und präzise (< 500 Tokens)
- Logs:
search_logsaktiviert, FAQ-Einträge erstellt - Output: Max Output Tokens auf 500 begrenzt
- Temperature: Auf 0.3-0.7 gesetzt
- Reasoning:
lowodermedium(nichthigh) - Threads: Regelmäßig beenden (nach 10-15 Nachrichten)
- Tool-Aufrufe: In Instructions effizienten Gebrauch beschreiben
- Budget-Limit: Hard Limit in OpenAI gesetzt
- Monitoring: Wöchentlich OpenAI Usage Dashboard prüfen
- Analyse: Monatlich teuerste Konversationen identifizieren
🆘 Troubleshooting Kosten
Kosten sind unerwartet hoch
Diagnose:
OpenAI Usage Dashboard prüfen:
- Welches Modell verursacht die Kosten?
- Gibt es Spitzen an bestimmten Tagen?
Shopware Logs prüfen:
- Sortieren Sie nach "Cost"
- Welche Konversationen waren teuer?
Häufige Ursachen:
Ursache 1: Falsches Modell
Problem: Versehentlich gpt-4o statt gpt-4o-mini
Lösung: Modell in Agent-Konfiguration ändern
Ersparnis: 90%
Ursache 2: Zu viele Tools
Problem: 30 Tools aktiviert
Lösung: Auf 10-12 reduzieren
Ersparnis: 40%
Ursache 3: Sehr lange Instructions
Problem: 2.000 Token Instructions
Lösung: Auf 300-500 Tokens kürzen
Ersparnis: 60%
Ursache 4: Keine Caching-Nutzung
Problem: 0% Cached Tokens
Ursache: Instructions ändern sich ständig
Lösung: Instructions stabilisieren
Ursache 5: Unendliche Loops
Problem: Agent ruft sich selbst auf
Lösung: Instructions klarer formulieren, Loops verhindern
Nächste Schritte
Sie wissen jetzt, wie Sie Kosten überwachen und optimieren!
➡️ Best Practices - Weitere Optimierungs-Tipps
➡️ Troubleshooting - Häufige Probleme lösen
➡️ Zurück zur Haupt-Dokumentation