OpenAI $100, Claude $200: Wann Self-Hosting die bessere Rechnung ist

Heute hat OpenAI seinen neuen $100/Monat Pro-Plan live geschaltet. Wer Codex intensiv nutzt, bekommt damit fünfmal mehr Kapazität als mit dem $20 Plus-Plan — ohne gleich die $200 für das volle Pro-Paket zahlen zu müssen. Anthropic bietet exakt dasselbe: Claude Max für $100 (5x) und $200 (20x). Die Parallelität ist kein Zufall.

Beide Anbieter kämpfen gerade um dieselbe Zielgruppe: Entwickler, die täglich Coding-Agents laufen lassen, Code reviewen, Refactors orchestrieren. Und beide stoßen dabei an echte Limits — nicht strategisch, sondern wirtschaftlich. Die Hardware, die diese Modelle betreibt, ist teurer denn je.

Warum die Preise steigen und nicht fallen

Technologie wird günstiger mit der Zeit. Moore’s Law, Skaleneffekte, Wettbewerb. Das ist das bekannte Narrativ. In der KI-Infrastruktur gilt es 2026 nicht.

Die GPU-Mietpreise für Nvidias H100 sind in den letzten sechs Monaten um 40% gestiegen — von $1,70/Stunde im Oktober 2025 auf $2,35/Stunde im März 2026. Der Spotmarkt ist de facto ausverkauft. Wer kurzfristig Rechenkapazität braucht, zahlt auf AWS bis zu $14/Stunde für Blackwell B200 Instanzen. Lieferzeiten für neue Blackwell-Cluster erstrecken sich bis Juni–Juli 2026, die Produktionskapazität bis August–September ist bereits vollständig vorgebucht.

Die Speicherseite ist noch drastischer: LPDDR5-Preise sind im ersten Quartal 2026 auf das Vierfache des Vorjahresniveaus gestiegen, DDR5 sogar auf das Fünffache. Server-OEMs geben diese Kosten weiter — und dann noch einen Aufschlag obendrauf.

Im Hintergrund: Die vier größten Hyperscaler (Alphabet, Microsoft, Meta, Amazon) planen 2026 gemeinsam rund $700 Milliarden KI-Infrastruktur-Ausgaben. Allein für Nvidia-GPUs dürften das über $140 Milliarden sein. Bei dieser Nachfragedichte kann keine Modelloptimierung die gestiegenen Betriebskosten kompensieren.

Das Ergebnis: OpenAI und Anthropic müssen diese Kosten irgendwo hereinholen. Die neuen $100-Pläne sind die sauberste Antwort darauf.

Gemma 4 Performance vs. Modellgröße — Pareto-Frontier zeigt Open-Weight-Modelle auf Augenhöhe mit proprietären APIs (Quelle: HuggingFace / Google)

Was du mit $100 und $200 bekommst — und was nicht

Beide Anbieter spiegeln sich fast exakt:

Plan	Anbieter	Monatspreis	Kapazität
Plus	OpenAI	$20	Basis-Codex-Limits
Pro	OpenAI	$100	5x Codex (10x bis 31. Mai)
Pro	OpenAI	$200	20x Codex, parallele Workflows
Claude Max 5x	Anthropic	$100	5x Claude Code
Claude Max 20x	Anthropic	$200	20x Claude Code

Das klingt nach Wahlfreiheit. Ist es auch — solange du innerhalb eines der beiden Ökosysteme bleibst. Das Problem: Du zahlst nicht nur für Rechenkapazität, du zahlst für Daten, die den Server des Anbieters passieren. Du zahlst für Rate-Limits, die sich ändern können. Und du zahlst jeden Monat neu, egal wie stark oder schwach du die Kapazität tatsächlich abrufst.

Für viele Entwickler und Teams ist das vollkommen in Ordnung — der Overhead des Self-Hosting übersteigt die Kosten der Abos deutlich. Aber diese Gleichung kippt, sobald das Token-Volumen wächst.

Gemma 4: Die Rechnung, die OpenAI und Anthropic nicht gerne sehen

Anfang April hat Google Gemma 4 unter Apache-2.0-Lizenz veröffentlicht. Vier Modelle, von Edge-Devices bis Workstation-GPU. Das Flaggschiff, der 31B Dense, erreicht 89,2% auf dem AIME-2026-Mathe-Benchmark und einen Codeforces-ELO von 2.150 — das ist Expert-Level Competitive Programming. Zur Einordnung: Gemma 3 lag auf demselben Benchmark bei 20,8% und einem ELO von 110.

Was das in der Praxis bedeutet, zeigt eine einfache Kostenrechnung:

Setup	Kosten pro 1M Token
Claude Sonnet 4.6 (API, gemischt)	~$9,00
Claude Opus 4.6 (API, gemischt)	~$15,00
Gemma 4 31B lokal (RTX 4090, Q4)	~$0,002

Die RTX 4090 kostet einmalig rund $1.600. Bei einem Verbrauch von einer Million Token täglich amortisiert sich das in etwa sechs Monaten gegenüber einer Claude-Sonnet-Nutzung. Bei fünf Millionen Token täglich — nicht ungewöhnlich für ein aktives Entwicklungsteam mit Coding Agents — dauert es 36 Tage. Bei zehn Millionen Token: 18 Tage.

Die Lizenz erlaubt kommerzielle Nutzung ohne Einschränkungen. Fine-Tuning per LoRA kostet einmalig $50–500 an GPU-Rechenzeit — danach läuft das angepasste Modell ohne API-Aufschlag.

Server-Infrastruktur für lokale KI-Inferenz — Self-Hosting setzt auf dedizierte Hardware statt monatlicher API-Gebühren

Wann welches Modell die richtige Wahl ist

Kein Framework passt für alle. Unsere Einschätzung aus der Praxis:

API-Abonnement (OpenAI Pro / Claude Max) macht Sinn wenn:

Das Token-Volumen unter ~500.000 täglich bleibt
Kein DevOps-Kapazität vorhanden ist, um GPU-Server zu betreiben
Absolute Frontier-Qualität gefragt ist — die komplexesten Agentic Workflows laufen auf proprietären Modellen derzeit noch zuverlässiger
Time-to-market wichtiger ist als Kostenkontrolle

Self-Hosting (Gemma 4 + Ollama / vLLM) macht Sinn wenn:

Das Volumen hoch ist und täglich wächst
Datenschutz keine Wahl, sondern Pflicht ist (DSGVO, Gesundheitswesen, Recht, Finance)
Domain-spezifische Fine-Tuning-Qualität gefragt ist
Ein RTX 4090, ein M4 Mac Pro oder ein kleines GPU-Cluster vorhanden oder budgetiert ist

Pay-as-you-go (API ohne Abo) bleibt sinnvoll für:

Unregelmäßige, sporadische Nutzung
Experimentelle Workloads und Prototypen
Teams, die zwischen Anbietern wechseln möchten, ohne Bindung

Die eigentliche Frage dahinter

OpenAI und Anthropic bauen fantastische Modelle. Die $100-Pläne sind nicht böse gemeint — sie sind die wirtschaftlich logische Antwort auf Hardware-Kosten, die sich strukturell verändert haben.

Die Frage ist nicht, ob diese Anbieter ihr Geld wert sind. Die Frage ist, ob eine wachsende Abhängigkeit von einer Handvoll Plattformen zu deinen strategischen Zielen passt. Jede Preisrunde, jede Limit-Anpassung, jede API-Änderung liegt außerhalb deiner Kontrolle.

Mit Gemma 4 31B unter Apache 2.0 gibt es erstmals eine realistische Antwort darauf: ein Modell, das auf Consumer-Hardware läuft, auf Frontier-Niveau performt und dir die Datenhoheit zurückgibt. Vollständig.

Du überlegst, ob Self-Hosting für euer Team in Frage kommt? Wir helfen bei der Evaluation, dem Setup und der Entscheidung, welche Workloads wirklich lokal laufen sollten — und welche nicht. Sprich uns an.