- April 2026. Google veröffentlicht Gemma 4. Innerhalb von 24 Stunden laufen tausende Community-Tests, Benchmarks werden auseinandergenommen, und auf Reddit diskutiert man, ob Open-Source-KI gerade den Wendepunkt erreicht hat. Kurze Antwort: fast.
Was Gemma 4 ist
Vier Modelle, zwei Architekturen — von Android-Phones bis zum Workstation-GPU:
| Modell | Aktive Parameter | Kontext | Besonderheit |
|---|---|---|---|
| E2B | 2,3B | 128K | Läuft auf einem i7-Laptop, inkl. Audio |
| E4B | 4,5B | 128K | Edge-Device, Audio-Input nativ |
| 26B MoE | 3,8B aktiv / 26B total | 256K | 128 Experten, nur 3,8B pro Token |
| 31B Dense | 30,7B | 256K | Flaggschiff, Platz #3 weltweit |
Alle vier Modelle verarbeiten Text, Bilder und Video nativ. Die kleineren zusätzlich Audio — was die größeren nicht können, ein ungewöhnlicher Design-Entscheid.
Lizenz: Apache 2.0. Dazu gleich mehr.
Die Zahlen, die man kennen muss
Gemma 3 war ein solides Modell. Es gewann keine Kategorie. Gemma 4 ist eine andere Geschichte:
| Benchmark | Gemma 3 27B | Gemma 4 31B | Sprung |
|---|---|---|---|
| AIME 2026 (Mathe) | 20,8% | 89,2% | +68 Punkte |
| GPQA Diamond (Reasoning) | 42,4% | 84,3% | +42 Punkte |
| LiveCodeBench v6 (Coding) | 29,1% | 80,0% | +51 Punkte |
| Codeforces ELO | 110 | 2.150 | +2.040 Punkte |
| MMMLU (Mehrsprachig) | 70,7% | 88,4% | +18 Punkte |
Das sind keine iterativen Verbesserungen. Beim Mathe-Olympiade-Benchmark (AIME) hat sich die Score mehr als vervierfacht. Beim Competitive-Programming-ELO ist Gemma 4 von “kaum funktional” auf Expert-Niveau gesprungen.
Das 26B MoE-Modell ist dabei die technisch interessantere Zahl: Es erreicht 97% der Qualität des 31B-Flaggschiffs — bei nur 3,8B aktiven Parametern pro Inference-Schritt. 8x weniger Rechenaufwand für 3% weniger Qualität.
Die eigentliche Neuigkeit: Apache 2.0
Benchmark-Sprünge kommen und gehen. Was bei Gemma 4 wirklich zählt, steht im Lizenz-Header.
Gemma 3 lief unter einer eigenen Google-Lizenz. Technisch “offen”, aber mit Klauseln, die Google das Recht gaben, den Zugang zu terminieren — und die Terms einseitig zu ändern. Enterprise Legal Teams haben das gesehen und Gemma 3 oft nicht durchgewunken. Zu viel Unsicherheit für ein Produkt, das auf dem Modell aufbauen soll.
Qwen von Alibaba und Mistral liefen schon länger unter Apache 2.0. Sie haben dadurch Enterprise-Deals gewonnen, die Gemma verloren hat.
Gemma 4 unter Apache 2.0 ändert das. Die Lizenz-Terms sind mit dem Release eingefroren — Google kann sie nicht mehr nachträglich anpassen. Kein Legal-Review mehr nötig, kein Risiko-Assessment. Für Unternehmen, die KI-Produkte on-premise oder in regulierten Umgebungen betreiben, ist das der entscheidende Unterschied.
Clement Delangue, CEO von Hugging Face, nannte es einen “huge milestone” — was er normalerweise nicht schreibt.
Kann Gemma 4 mit Claude oder GPT-5 mithalten?
Direkt gesagt: teilweise — und genau das ist das Interessante.
Gemma 4 31B liegt auf Arena AI bei einem LMArena-Score von ~1.452, vergleichbar mit GPT-5-mini und über GPT-OSS-120B. Bei Coding (Codeforces ELO 2.150) schlägt es praktisch alle Open-Source-Modelle.
Claude Opus 4.6 oder GPT-5 holt es nicht ein. Das sind Frontier-Modelle mit deutlich mehr Parametern, massiv mehr Trainingsaufwand und jahrelanger Optimierung für komplexe Reasoning-Chains. Daran ändert sich mit Gemma 4 nichts.
Der realistische Vergleich: Gemma 4 31B ist ein direkter Konkurrent zu Claude Haiku oder GPT-4o mini — bei null Kosten pro Query, on-premise deploybar, ohne Datenschutzbedenken, ohne Rate Limits.
Wer heute Claude Haiku für interne Tools oder Batch-Processing nutzt und die API-Kosten spürt: Gemma 4 ist eine konkrete Alternative, die sich rechnet.
Was die Community nach 24 Stunden wirklich gefunden hat
Die Benchmarks stimmen. Die Praxis hat aber auch Baustellen gezeigt.
Inference-Speed beim MoE: Mehrere User berichten 11 Token/Sekunde für das 26B MoE-Modell auf einer RTX 5060 Ti — verglichen mit 60+ Token/Sekunde bei Qwen 3.5 35B auf derselben Karte. Das MoE-Design mit 128 kleinen Experten ist offenbar noch nicht optimal für aktuelle Consumer-Hardware optimiert.
VRAM-Verbrauch: Gemma 4 braucht bei langen Kontexten mehr VRAM als Qwen 3.5 bei gleicher Quantisierung. Das 256K-Kontextfenster in der Praxis zu nutzen, setzt mehr Hardware voraus als der Parameter-Count vermuten lässt.
Fine-Tuning am Tag 0: Hugging Face Transformers erkannte die neue gemma4-Architektur nicht (Workaround: From-Source installieren). PEFT hatte Probleme mit neuen Layer-Typen im Vision Encoder. Innerhalb von Stunden kamen Issues und PRs — aber wer sofort fine-tunen wollte, hatte Arbeit vor sich.
Mehrsprachigkeit: Überraschend stark. Tests in Deutsch, Arabisch und Vietnamesisch zeigen bessere Ergebnisse als Qwen 3.5. Für globale Deployments ein echter Vorteil.
Was noch fehlt: QAT-Versionen (quantization-aware training) — diese kamen bei Gemma 3 einige Wochen nach Release und verbessern quantisierte Modelle erheblich. Auch ein 9-12B Dense-Modell gibt es nicht, was eine Lücke für Nutzer mit Mittelklasse-GPUs lässt.
Was das für dich bedeutet
Wenn du heute Folgendes planst oder betreibst:
- Interne KI-Tools mit Datenschutzanforderungen: Gemma 4 E4B oder 31B lokal auf einem einzelnen Server.
- Agentic Workflows (Function-Calling, strukturiertes JSON): Native unterstützt, kein Prompting-Workaround nötig.
- Mehrsprachige Anwendungen: Stärkste Open-Source-Option im Bereich, besser als Qwen 3.5 für europäische Sprachen.
- Edge / Mobile AI: E2B läuft auf einem i7-Laptop mit 32 GB RAM mit brauchbarer Latenz.
Für Coding-Assistenten auf dem eigenen Server ist Gemma 4 31B heute schon produktionsreif — mit Einschränkungen beim Fine-Tuning-Tooling, das in den nächsten Wochen stabil wird.
Fazit
Gemma 4 ist das stärkste Open-Source-Modell, das Google je veröffentlicht hat. Die Benchmark-Sprünge von Gemma 3 auf 4 sind die größten, die wir in einer Generation im Open-Source-Bereich gesehen haben.
Frontier-Modelle wie Claude Opus oder GPT-5 ersetzt es nicht. Für lokale Deployments, Batch-Processing, interne Tools und On-Premise-Anforderungen ist es ab sofort erste Wahl — nicht weil es keine Alternativen gibt, sondern weil die Kombination aus Qualität, Apache-2.0-Lizenz und Hardware-Effizienz im Open-Source-Bereich so bisher nicht existiert hat.
Der eigentliche Shift ist nicht technisch. Es ist, dass Google zum ersten Mal ein Modell mit denselben Rechten veröffentlicht hat wie jeder andere Open-Source-Code auf deinem Server.
Du planst, KI-Modelle in deiner Infrastruktur zu betreiben? Wir helfen bei der Evaluierung, dem Deployment und der Integration — on-premise oder in der Cloud. Sprich uns an.