Heute hat OpenAI seinen neuen $100/Monat Pro-Plan live geschaltet. Wer Codex intensiv nutzt, bekommt damit fünfmal mehr Kapazität als mit dem $20 Plus-Plan — ohne gleich die $200 für das volle Pro-Paket zahlen zu müssen. Anthropic bietet exakt dasselbe: Claude Max für $100 (5x) und $200 (20x). Die Parallelität ist kein Zufall.
Beide Anbieter kämpfen gerade um dieselbe Zielgruppe: Entwickler, die täglich Coding-Agents laufen lassen, Code reviewen, Refactors orchestrieren. Und beide stoßen dabei an echte Limits — nicht strategisch, sondern wirtschaftlich. Die Hardware, die diese Modelle betreibt, ist teurer denn je.
Warum die Preise steigen und nicht fallen
Technologie wird günstiger mit der Zeit. Moore’s Law, Skaleneffekte, Wettbewerb. Das ist das bekannte Narrativ. In der KI-Infrastruktur gilt es 2026 nicht.
Die GPU-Mietpreise für Nvidias H100 sind in den letzten sechs Monaten um 40% gestiegen — von $1,70/Stunde im Oktober 2025 auf $2,35/Stunde im März 2026. Der Spotmarkt ist de facto ausverkauft. Wer kurzfristig Rechenkapazität braucht, zahlt auf AWS bis zu $14/Stunde für Blackwell B200 Instanzen. Lieferzeiten für neue Blackwell-Cluster erstrecken sich bis Juni–Juli 2026, die Produktionskapazität bis August–September ist bereits vollständig vorgebucht.
Die Speicherseite ist noch drastischer: LPDDR5-Preise sind im ersten Quartal 2026 auf das Vierfache des Vorjahresniveaus gestiegen, DDR5 sogar auf das Fünffache. Server-OEMs geben diese Kosten weiter — und dann noch einen Aufschlag obendrauf.
Im Hintergrund: Die vier größten Hyperscaler (Alphabet, Microsoft, Meta, Amazon) planen 2026 gemeinsam rund $700 Milliarden KI-Infrastruktur-Ausgaben. Allein für Nvidia-GPUs dürften das über $140 Milliarden sein. Bei dieser Nachfragedichte kann keine Modelloptimierung die gestiegenen Betriebskosten kompensieren.
Das Ergebnis: OpenAI und Anthropic müssen diese Kosten irgendwo hereinholen. Die neuen $100-Pläne sind die sauberste Antwort darauf.
Was du mit $100 und $200 bekommst — und was nicht
Beide Anbieter spiegeln sich fast exakt:
| Plan | Anbieter | Monatspreis | Kapazität |
|---|---|---|---|
| Plus | OpenAI | $20 | Basis-Codex-Limits |
| Pro | OpenAI | $100 | 5x Codex (10x bis 31. Mai) |
| Pro | OpenAI | $200 | 20x Codex, parallele Workflows |
| Claude Max 5x | Anthropic | $100 | 5x Claude Code |
| Claude Max 20x | Anthropic | $200 | 20x Claude Code |
Das klingt nach Wahlfreiheit. Ist es auch — solange du innerhalb eines der beiden Ökosysteme bleibst. Das Problem: Du zahlst nicht nur für Rechenkapazität, du zahlst für Daten, die den Server des Anbieters passieren. Du zahlst für Rate-Limits, die sich ändern können. Und du zahlst jeden Monat neu, egal wie stark oder schwach du die Kapazität tatsächlich abrufst.
Für viele Entwickler und Teams ist das vollkommen in Ordnung — der Overhead des Self-Hosting übersteigt die Kosten der Abos deutlich. Aber diese Gleichung kippt, sobald das Token-Volumen wächst.
Gemma 4: Die Rechnung, die OpenAI und Anthropic nicht gerne sehen
Anfang April hat Google Gemma 4 unter Apache-2.0-Lizenz veröffentlicht. Vier Modelle, von Edge-Devices bis Workstation-GPU. Das Flaggschiff, der 31B Dense, erreicht 89,2% auf dem AIME-2026-Mathe-Benchmark und einen Codeforces-ELO von 2.150 — das ist Expert-Level Competitive Programming. Zur Einordnung: Gemma 3 lag auf demselben Benchmark bei 20,8% und einem ELO von 110.
Was das in der Praxis bedeutet, zeigt eine einfache Kostenrechnung:
| Setup | Kosten pro 1M Token |
|---|---|
| Claude Sonnet 4.6 (API, gemischt) | ~$9,00 |
| Claude Opus 4.6 (API, gemischt) | ~$15,00 |
| Gemma 4 31B lokal (RTX 4090, Q4) | ~$0,002 |
Die RTX 4090 kostet einmalig rund $1.600. Bei einem Verbrauch von einer Million Token täglich amortisiert sich das in etwa sechs Monaten gegenüber einer Claude-Sonnet-Nutzung. Bei fünf Millionen Token täglich — nicht ungewöhnlich für ein aktives Entwicklungsteam mit Coding Agents — dauert es 36 Tage. Bei zehn Millionen Token: 18 Tage.
Die Lizenz erlaubt kommerzielle Nutzung ohne Einschränkungen. Fine-Tuning per LoRA kostet einmalig $50–500 an GPU-Rechenzeit — danach läuft das angepasste Modell ohne API-Aufschlag.
Wann welches Modell die richtige Wahl ist
Kein Framework passt für alle. Unsere Einschätzung aus der Praxis:
API-Abonnement (OpenAI Pro / Claude Max) macht Sinn wenn:
- Das Token-Volumen unter ~500.000 täglich bleibt
- Kein DevOps-Kapazität vorhanden ist, um GPU-Server zu betreiben
- Absolute Frontier-Qualität gefragt ist — die komplexesten Agentic Workflows laufen auf proprietären Modellen derzeit noch zuverlässiger
- Time-to-market wichtiger ist als Kostenkontrolle
Self-Hosting (Gemma 4 + Ollama / vLLM) macht Sinn wenn:
- Das Volumen hoch ist und täglich wächst
- Datenschutz keine Wahl, sondern Pflicht ist (DSGVO, Gesundheitswesen, Recht, Finance)
- Domain-spezifische Fine-Tuning-Qualität gefragt ist
- Ein RTX 4090, ein M4 Mac Pro oder ein kleines GPU-Cluster vorhanden oder budgetiert ist
Pay-as-you-go (API ohne Abo) bleibt sinnvoll für:
- Unregelmäßige, sporadische Nutzung
- Experimentelle Workloads und Prototypen
- Teams, die zwischen Anbietern wechseln möchten, ohne Bindung
Die eigentliche Frage dahinter
OpenAI und Anthropic bauen fantastische Modelle. Die $100-Pläne sind nicht böse gemeint — sie sind die wirtschaftlich logische Antwort auf Hardware-Kosten, die sich strukturell verändert haben.
Die Frage ist nicht, ob diese Anbieter ihr Geld wert sind. Die Frage ist, ob eine wachsende Abhängigkeit von einer Handvoll Plattformen zu deinen strategischen Zielen passt. Jede Preisrunde, jede Limit-Anpassung, jede API-Änderung liegt außerhalb deiner Kontrolle.
Mit Gemma 4 31B unter Apache 2.0 gibt es erstmals eine realistische Antwort darauf: ein Modell, das auf Consumer-Hardware läuft, auf Frontier-Niveau performt und dir die Datenhoheit zurückgibt. Vollständig.
Du überlegst, ob Self-Hosting für euer Team in Frage kommt? Wir helfen bei der Evaluation, dem Setup und der Entscheidung, welche Workloads wirklich lokal laufen sollten — und welche nicht. Sprich uns an.