Kosten-Management - Überwachen & Optimieren

In diesem Kapitel lernen Sie, wie Sie die Kosten für OpenAI-Nutzung verstehen, überwachen und optimieren können.

💰 Wie funktioniert die Abrechnung?

Pay-as-you-go Modell

OpenAI rechnet nach dem Pay-as-you-go Prinzip ab:

Sie zahlen nur für das, was Sie wirklich nutzen
Keine Grundgebühr, keine Abo-Kosten
Abrechnung erfolgt pro Token

Was sind Tokens?

Tokens sind die kleinsten Einheiten, die OpenAI verarbeitet:

1 Token ≈ 4 Zeichen
1 Token ≈ 0,75 Wörter (im Deutschen)

Beispiele:

"Hallo" = 2 Tokens
"Wie geht es dir?" = 5 Tokens
"Ich suche eine rote Jacke in Größe M" = 10 Tokens

Online-Tool zum Zählen: OpenAI Tokenizer

📊 Preisübersicht (Stand: Januar 2025)

gpt-4o-mini (Empfohlen für die meisten Fälle)

Token-Typ	Preis pro 1 Million Tokens	Preis pro 1.000 Tokens
Input Tokens	$0.15	$0.00015
Output Tokens	$0.60	$0.00060
Cached Input Tokens	$0.075	$0.000075

gpt-4o (Für komplexe Aufgaben)

Token-Typ	Preis pro 1 Million Tokens	Preis pro 1.000 Tokens
Input Tokens	$2.50	$0.0025
Output Tokens	$10.00	$0.0100
Cached Input Tokens	$1.25	$0.00125

gpt-5 (Neuestes Modell, sehr teuer)

Token-Typ	Preis pro 1 Million Tokens	Preis pro 1.000 Tokens
Input Tokens	$10.00	$0.010
Output Tokens	$30.00	$0.030
Cached Input Tokens	$5.00	$0.005

o4-mini (Mit Reasoning, variabel)

Token-Typ	Preis pro 1 Million Tokens	Preis pro 1.000 Tokens
Input Tokens	$3.00	$0.003
Reasoning Tokens	$12.00	$0.012
Output Tokens	$12.00	$0.012
Cached Input Tokens	$1.50	$0.0015

Tipp

gpt-4o-mini bietet das beste Preis-Leistungs-Verhältnis für 90% der E-Commerce-Anwendungen!

🧮 Kosten-Rechnung verstehen

Was wird berechnet?

Jede API-Anfrage besteht aus:

1. Input Tokens (Eingabe)

Alles, was an OpenAI gesendet wird:

✅ Benutzernachricht (z.B. "Zeig mir rote Jacken")
✅ System Instructions (Ihre Agent-Anweisungen)
✅ Tool-Beschreibungen (Alle aktivierten Tools)
✅ Konversations-Verlauf (Bisherige Nachrichten im Thread)
✅ Init Instructions (Begrüßung)
✅ Fallback Instructions (Fehlerbehandlung)

Beispiel-Berechnung:

System Instructions:     800 Tokens
Tool Descriptions:       1.200 Tokens (20 Tools)
Conversation History:    500 Tokens
User Message:            15 Tokens
─────────────────────────────────────
Total Input:             2.515 Tokens

Kosten (gpt-4o-mini):

2.515 Tokens × $0.00000015 = $0.000377

2. Output Tokens (Ausgabe)

Alles, was OpenAI zurückgibt:

✅ Agent-Antworten
✅ Tool-Aufrufe (JSON-Struktur)

Beispiel:

Agent-Antwort:           120 Tokens
Tool Call (JSON):        45 Tokens
─────────────────────────────────────
Total Output:            165 Tokens

Kosten (gpt-4o-mini):

165 Tokens × $0.00000060 = $0.000099

3. Cached Tokens (Zwischengespeichert)

OpenAI speichert häufig genutzte Input-Teile zwischen:

✅ System Instructions (bleiben meist gleich)
✅ Tool-Beschreibungen (ändern sich selten)

Caching-Ersparnis:

Ohne Cache:

Input: 2.515 Tokens × $0.00000015 = $0.000377

Mit Cache (1.500 Tokens gecacht):

New Input:     1.015 Tokens × $0.00000015 = $0.000152
Cached Input:  1.500 Tokens × $0.00000008 = $0.000120
────────────────────────────────────────────────────
Total:                                   $0.000272

Ersparnis: 28% weniger Kosten!

Prompt Caching

OpenAI cached automatisch Prompts, die länger als 1.024 Tokens sind und sich wiederholen. Sie müssen nichts tun – es funktioniert automatisch!

📈 Beispiel-Kostenrechnung

Szenario: Produktberater-Agent

Setup:

Modell: gpt-4o-mini
System Instructions: 800 Tokens
20 Tools aktiviert: 1.200 Tokens
Durchschnittliche Konversation: 3 Nachrichten

Konversation:

Kunde: "Ich suche eine Winterjacke"
→ Input: 2.015 Tokens (Instructions + Tools + Message)
→ Output: 180 Tokens (Tool call + Antwort)

Kunde: "Habt ihr die auch in blau?"
→ Input: 2.520 Tokens (+ History)
→ Output: 120 Tokens

Kunde: "Perfekt, ich nehme Größe M"
→ Input: 2.650 Tokens (+ History)
→ Output: 95 Tokens

Token-Nutzung Gesamt:

Typ	Tokens	Preis
Input (neu)	3.200	$0.00048
Input (cached)	3.985	$0.00030
Output	395	$0.00024
Gesamt	7.580	$0.00102

Pro Konversation: ca. 0,1 Cent (€0,001)

Hochrechnung:

Pro Tag (100 Konversationen): $0.10 (9 Cent)
Pro Monat (3.000 Konversationen): $3.06 (ca. 3 €)
Pro Jahr (36.000 Konversationen): $36.72 (ca. 35 €)

Fazit

Mit gpt-4o-mini können Sie tausende Konversationen für wenige Euro pro Monat betreiben!

📉 Kosten optimieren - Top 10 Tipps

1. Nutzen Sie gpt-4o-mini statt gpt-4o

Ersparnis: 90-95%

gpt-4o:        $0.015 pro 1.000 Tokens
gpt-4o-mini:   $0.0004 pro 1.000 Tokens
────────────────────────────────────────
Ersparnis:     37,5x günstiger!

Wann dennoch gpt-4o nutzen?

Sehr komplexe Reasoning-Aufgaben
Mehrsprachige, anspruchsvolle Konversationen
Fachspezifisches Wissen erforderlich

Test: Probieren Sie erst gpt-4o-mini. In 90% der Fälle reicht es völlig aus!

2. Deaktivieren Sie nicht benötigte Tools

Problem: Jedes Tool erhöht Input-Tokens

Beispiel:

Tools:   ~300 Tokens
Tools:  ~600 Tokens
Tools:  ~1.200 Tokens
Tools:  ~1.800 Tokens

Lösung:

Aktivieren Sie nur Tools, die Ihr Agent wirklich braucht.

Produktberater braucht:

✅ product_search
✅ get_product_details
✅ search_logs
❌ NICHT: get_order_status, create_order, send_email

Ersparnis: 30-50% weniger Input-Tokens

3. Kürzen Sie Instructions

Problem: Lange Instructions = hohe Input-Kosten

❌ Schlecht (1.200 Tokens):

Du bist ein freundlicher, hilfsbereiter Produktberater für unseren Online-Shop.
Deine Aufgabe ist es, Kunden bei der Produktauswahl zu unterstützen, Fragen
zu beantworten, Empfehlungen zu geben und sicherzustellen, dass jeder Kunde
das perfekte Produkt findet. Du solltest immer höflich, geduldig und
verständnisvoll sein. Nutze die dir zur Verfügung stehenden Tools, um...
[weitere 800 Tokens]

✅ Gut (300 Tokens):

Du bist Produktberater für Mode. Aufgaben:
- Produkte suchen mit product_search
- Details abrufen mit get_product_details
- Erst search_logs nutzen für häufige Fragen
- Kurze, präzise Antworten
- Bei Unklarheit: nachfragen

Tonalität: Freundlich, hilfsbereit, professionell

Ersparnis: 75% weniger Tokens

Achtung

Achten Sie darauf, dass Instructions trotzdem klar und präzise bleiben!

4. Nutzen Sie das Log-System

Warum spart das Kosten?

Ohne Logs:

Kunde: "Wie lange dauert Versand?"
→ Agent ruft get_shipping_info auf
→ Input: 2.500 Tokens, Output: 200 Tokens
→ Kosten: $0.00052

Mit Logs:

Kunde: "Wie lange dauert Versand?"
→ Agent findet Antwort in search_logs
→ Input: 1.800 Tokens, Output: 120 Tokens
→ Kosten: $0.00034

Ersparnis: 35% pro Anfrage

Bei häufigen Fragen: 50-70% Ersparnis!

Setup:

search_logs Tool aktivieren
FAQ-Einträge erstellen (siehe Wissens-Management)
In Instructions: "Nutze IMMER zuerst search_logs"

5. Begrenzen Sie Max Output Tokens

Problem: Lange Antworten = hohe Output-Kosten

Lösung:

In der Agent-Konfiguration:

Max Output Tokens: 500 (statt 4.000)

Beispiel:

Ohne Limit:

Agent schreibt 2.000 Token lange Antwort
→ Kosten: $0.0012

Mit Limit (500):

Agent schreibt maximal 500 Token
→ Kosten: $0.0003

Ersparnis: 75%

Tipp

Für Produktberatung sind 300-500 Tokens meist völlig ausreichend!

6. Nutzen Sie niedrigere Temperature

Was ist Temperature?

Kreativitäts-Einstellung:

0.1-0.5: Konsistent, vorhersehbar, effizienter
0.6-1.0: Ausgewogen
1.1-2.0: Kreativ, aber mehr Tokens

Kosten-Effekt:

Niedrige Temperature (0.3):

Antwort: "Ja, wir haben die Jacke in Größe M auf Lager."
→ 12 Tokens

Hohe Temperature (1.5):

Antwort: "Gerne! Ich freue mich, dir mitteilen zu können, dass wir diese wunderbare Jacke tatsächlich in der von dir gewünschten Größe M vorrätig haben!"
→ 28 Tokens

Ersparnis: 40-60% weniger Output-Tokens

Empfehlung: Temperature 0.3-0.7 für E-Commerce

7. Vermeiden Sie hohe Reasoning Effort

Problem: high Reasoning Effort ist teuer

Beispiel (o4-mini):

Low Reasoning:     500 Reasoning Tokens
Medium Reasoning:  1.500 Reasoning Tokens
High Reasoning:    5.000 Reasoning Tokens

Kosten (o4-mini, $0.012 pro 1k):

Low:    $0.006
Medium: $0.018
High:   $0.060

Ersparnis: 90% durch Wechsel von high → low

Empfehlung:

Standard: low oder medium
Nur bei sehr komplexen Aufgaben: high

8. Threads regelmäßig beenden

Problem: Lange Threads = großer Konversations-Verlauf

Beispiel:

Nachricht 1: 2.500 Input Tokens
Nachricht 2: 2.700 Input Tokens (+ History)
Nachricht 3: 2.950 Input Tokens (+ History)
...
Nachricht 20: 8.000 Input Tokens (+ History)

Lösung:

Beenden Sie Threads nach:

Abschluss eines Kaufs
Lösung einer Anfrage
10-15 Nachrichten

Frontend-Integration:

// Thread nach erfolgreicher Bestellung beenden
if (orderCompleted) {
    createNewThread();
}

Ersparnis: 40-60% bei langen Konversationen

9. Vermeiden Sie unnötige Tool-Aufrufe

Problem: Tool-Aufrufe erhöhen Output-Tokens

Beispiel:

Schlecht:

Agent ruft auf:
1. product_search (alle roten Jacken)
2. product_search (alle blauen Jacken)
3. product_search (alle grünen Jacken)
→ 3 Tool-Aufrufe = 180 Output Tokens

Besser:

Agent ruft auf:
1. product_search (alle Jacken)
→ 1 Tool-Aufruf = 60 Output Tokens

Lösung:

In Instructions:

Nutze Tools effizient. Rufe product_search nur einmal auf und
nutze dann die Ergebnisse. Vermeide mehrfache Aufrufe für
ähnliche Anfragen.

Ersparnis: 50-70% weniger Tool-Aufrufe

10. Setzen Sie Budget-Limits

Warum?

Schützen Sie sich vor:

Unerwarteten Kosten
Missbrauch (falls API-Key kompromittiert)
Bugs (z.B. unendliche Loops)

Setup:

Gehen Sie zu OpenAI Billing Settings
Setzen Sie Hard Limit (z.B. $10/Monat)
Setzen Sie Soft Limit (z.B. $5/Monat → E-Mail-Benachrichtigung)

Beispiel:

Soft Limit:  $5 → Sie erhalten E-Mail-Warnung
Hard Limit: $10 → API wird deaktiviert

Empfehlung:

Klein-Shop: $5-10/Monat
Mittel-Shop: $20-50/Monat
Groß-Shop: $100-200/Monat

📊 Kosten überwachen

OpenAI Usage Dashboard

Zugriff: platform.openai.com/usage

Was Sie sehen:

Tagesansicht
- Kosten pro Tag
- Requests pro Tag
- Tokens pro Tag
Modell-Aufschlüsselung
- Welches Modell wird wie viel genutzt?
- Welches Modell kostet am meisten?
Token-Details
- Input Tokens
- Output Tokens
- Cached Tokens
Kosten-Verlauf
- Diagramm der letzten 30 Tage
- Trends erkennen

Shopware Plugin-Logs

Zugriff: 5E OAI Agent Manager → Assistant Logs

Was Sie sehen:

Kosten pro Konversation
Token-Nutzung pro Nachricht
Durchschnittliche Kosten

Analyse:

Filtern Sie nach Zeitraum (z.B. letzte 7 Tage)
Sortieren Sie nach "Cost" (teuerste zuerst)
Identifizieren Sie Ausreißer

Fragen:

Welche Konversationen waren besonders teuer?
Warum? (zu viele Tools? langes Gespräch? falsches Modell?)
Wie können Sie optimieren?

💡 Kosten-Szenarien

Szenario 1: Kleiner Shop (50 Konversationen/Tag)

Setup:

Modell: gpt-4o-mini
Tools: 10 Tools
Durchschnitt: 2.000 Input, 300 Output Tokens
50% Cached

Berechnung:

Pro Konversation:
Input (neu):    1.000 × $0.00000015 = $0.00015
Input (cached): 1.000 × $0.00000008 = $0.00008
Output:           300 × $0.00000060 = $0.00018
────────────────────────────────────────────────
Total:                               $0.00041

Hochrechnung:

Pro Tag:   50 × $0.00041 = $0.02   (2 Cent)
Pro Monat: 1.500 Konversationen = $0.62   (55 Cent)
Pro Jahr:  18.000 Konversationen = $7.44  (7 €)

Budget-Empfehlung: $5/Monat (genug Puffer)

Szenario 2: Mittlerer Shop (300 Konversationen/Tag)

Setup:

Modell: gpt-4o-mini
Tools: 15 Tools
Durchschnitt: 2.500 Input, 400 Output Tokens
60% Cached (dank Wissensmanagement)

Berechnung:

Pro Konversation:
Input (neu):    1.000 × $0.00000015 = $0.00015
Input (cached): 1.500 × $0.00000008 = $0.00012
Output:           400 × $0.00000060 = $0.00024
────────────────────────────────────────────────
Total:                               $0.00051

Hochrechnung:

Pro Tag:   300 × $0.00051 = $0.15   (14 Cent)
Pro Monat: 9.000 Konversationen = $4.59   (4,30 €)
Pro Jahr:  108.000 Konversationen = $55.08 (52 €)

Budget-Empfehlung: $10-20/Monat

Szenario 3: Großer Shop (1.000 Konversationen/Tag)

Setup:

Modell: gpt-4o-mini (90%), gpt-4o (10% für komplexe Fälle)
Tools: 20 Tools
Durchschnitt: 3.000 Input, 500 Output Tokens
70% Cached

Berechnung gpt-4o-mini (90%):

Pro Konversation:
Input (neu):      900 × $0.00000015 = $0.00014
Input (cached): 2.100 × $0.00000008 = $0.00017
Output:           500 × $0.00000060 = $0.00030
────────────────────────────────────────────────
Total:                               $0.00061

Berechnung gpt-4o (10%):

Pro Konversation:
Input (neu):      900 × $0.0000025 = $0.00225
Input (cached): 2.100 × $0.0000013 = $0.00273
Output:           500 × $0.0000100 = $0.00500
────────────────────────────────────────────────
Total:                              $0.00998

Gesamt:

90% gpt-4o-mini: 900 × $0.00061 = $0.55
10% gpt-4o:      100 × $0.00998 = $1.00
────────────────────────────────────────────
Pro Tag:                           $1.55

Hochrechnung:

Pro Monat: 30.000 Konversationen = $46.50 (44 €)
Pro Jahr:  360.000 Konversationen = $558   (530 €)

Budget-Empfehlung: $100-150/Monat (genug Puffer für Spitzen)

🎯 ROI (Return on Investment)

Kosten vs. Nutzen

Kosten-Beispiel (mittlerer Shop):

OpenAI: $5/Monat
Plugin: einmalig (keine laufenden Kosten)
Gesamt: $5/Monat

Nutzen:

Ersparnis Kundenservice:
- Annahme: Agent beantwortet 50% aller Anfragen
- 150 Anfragen/Tag × 50% = 75 automatisierte Anfragen
- Zeit pro Anfrage: 5 Minuten
- Ersparnis: 375 Minuten/Tag = 6,25 Stunden
- Mitarbeiter-Kosten: 20 €/Stunde
- Ersparnis: 125 €/Tag = 3.750 €/Monat
Höhere Conversion:
- Kunden erhalten sofort Hilfe (24/7)
- Annahme: 2% höhere Conversion durch bessere Beratung
- Bei 10.000 Besuchern/Monat, 2% Conversion, 80 € AOV:
- Zusätzliche Conversions: 10.000 × 0.02 × 0.02 = 4
- Zusatzumsatz: 4 × 80 € = 320 €/Monat
Gesamtnutzen:
- Ersparnis Kundenservice: 3.750 €
- Zusatzumsatz: 320 €
- Gesamt: 4.070 €/Monat

ROI:

(Nutzen - Kosten) / Kosten × 100
= (4.070 - 5) / 5 × 100
= 81.300%

Fazit

Die OpenAI-Kosten sind vernachlässigbar im Vergleich zum Nutzen!

📋 Kosten-Optimierungs-Checkliste

🆘 Troubleshooting Kosten

Kosten sind unerwartet hoch

Diagnose:

OpenAI Usage Dashboard prüfen:
- Welches Modell verursacht die Kosten?
- Gibt es Spitzen an bestimmten Tagen?
Shopware Logs prüfen:
- Sortieren Sie nach "Cost"
- Welche Konversationen waren teuer?

Häufige Ursachen:

Ursache 1: Falsches Modell

Problem: Versehentlich gpt-4o statt gpt-4o-mini
Lösung: Modell in Agent-Konfiguration ändern
Ersparnis: 90%

Ursache 2: Zu viele Tools

Problem: 30 Tools aktiviert
Lösung: Auf 10-12 reduzieren
Ersparnis: 40%

Ursache 3: Sehr lange Instructions

Problem: 2.000 Token Instructions
Lösung: Auf 300-500 Tokens kürzen
Ersparnis: 60%

Ursache 4: Keine Caching-Nutzung

Problem: 0% Cached Tokens
Ursache: Instructions ändern sich ständig
Lösung: Instructions stabilisieren

Ursache 5: Unendliche Loops

Problem: Agent ruft sich selbst auf
Lösung: Instructions klarer formulieren, Loops verhindern

Nächste Schritte

Sie wissen jetzt, wie Sie Kosten überwachen und optimieren!

➡️ Best Practices - Weitere Optimierungs-Tipps

➡️ Troubleshooting - Häufige Probleme lösen

➡️ Zurück zur Haupt-Dokumentation

Kosten-Management - Überwachen & Optimieren

💰 Wie funktioniert die Abrechnung?​

Pay-as-you-go Modell​

Was sind Tokens?​

📊 Preisübersicht (Stand: Januar 2025)​

gpt-4o-mini (Empfohlen für die meisten Fälle)​

gpt-4o (Für komplexe Aufgaben)​

gpt-5 (Neuestes Modell, sehr teuer)​

o4-mini (Mit Reasoning, variabel)​

🧮 Kosten-Rechnung verstehen​

Was wird berechnet?​

1. Input Tokens (Eingabe)​

2. Output Tokens (Ausgabe)​

3. Cached Tokens (Zwischengespeichert)​

📈 Beispiel-Kostenrechnung​

Szenario: Produktberater-Agent​

📉 Kosten optimieren - Top 10 Tipps​

1. Nutzen Sie gpt-4o-mini statt gpt-4o​

2. Deaktivieren Sie nicht benötigte Tools​

3. Kürzen Sie Instructions​

4. Nutzen Sie das Log-System​

5. Begrenzen Sie Max Output Tokens​

6. Nutzen Sie niedrigere Temperature​

7. Vermeiden Sie hohe Reasoning Effort​

8. Threads regelmäßig beenden​

9. Vermeiden Sie unnötige Tool-Aufrufe​

10. Setzen Sie Budget-Limits​

📊 Kosten überwachen​

OpenAI Usage Dashboard​

Shopware Plugin-Logs​

💡 Kosten-Szenarien​

Szenario 1: Kleiner Shop (50 Konversationen/Tag)​

Szenario 2: Mittlerer Shop (300 Konversationen/Tag)​

Szenario 3: Großer Shop (1.000 Konversationen/Tag)​

🎯 ROI (Return on Investment)​

Kosten vs. Nutzen​

📋 Kosten-Optimierungs-Checkliste​

🆘 Troubleshooting Kosten​

Kosten sind unerwartet hoch​

Ursache 1: Falsches Modell​

Ursache 2: Zu viele Tools​

Ursache 3: Sehr lange Instructions​

Ursache 4: Keine Caching-Nutzung​

Ursache 5: Unendliche Loops​

Nächste Schritte​

💰 Wie funktioniert die Abrechnung?

Pay-as-you-go Modell

Was sind Tokens?

📊 Preisübersicht (Stand: Januar 2025)

gpt-4o-mini (Empfohlen für die meisten Fälle)

gpt-4o (Für komplexe Aufgaben)

gpt-5 (Neuestes Modell, sehr teuer)

o4-mini (Mit Reasoning, variabel)

🧮 Kosten-Rechnung verstehen

Was wird berechnet?

1. Input Tokens (Eingabe)

2. Output Tokens (Ausgabe)

3. Cached Tokens (Zwischengespeichert)

📈 Beispiel-Kostenrechnung

Szenario: Produktberater-Agent

📉 Kosten optimieren - Top 10 Tipps

1. Nutzen Sie gpt-4o-mini statt gpt-4o

2. Deaktivieren Sie nicht benötigte Tools

3. Kürzen Sie Instructions

4. Nutzen Sie das Log-System

5. Begrenzen Sie Max Output Tokens

6. Nutzen Sie niedrigere Temperature

7. Vermeiden Sie hohe Reasoning Effort

8. Threads regelmäßig beenden

9. Vermeiden Sie unnötige Tool-Aufrufe

10. Setzen Sie Budget-Limits

📊 Kosten überwachen

OpenAI Usage Dashboard

Shopware Plugin-Logs

💡 Kosten-Szenarien

Szenario 1: Kleiner Shop (50 Konversationen/Tag)

Szenario 2: Mittlerer Shop (300 Konversationen/Tag)

Szenario 3: Großer Shop (1.000 Konversationen/Tag)

🎯 ROI (Return on Investment)

Kosten vs. Nutzen

📋 Kosten-Optimierungs-Checkliste

🆘 Troubleshooting Kosten

Kosten sind unerwartet hoch

Ursache 1: Falsches Modell

Ursache 2: Zu viele Tools

Ursache 3: Sehr lange Instructions

Ursache 4: Keine Caching-Nutzung

Ursache 5: Unendliche Loops

Nächste Schritte