Gemma 4: Verändert Googles Open-Source-KI die Spielregeln?

April 2026. Google veröffentlicht Gemma 4. Innerhalb von 24 Stunden laufen tausende Community-Tests, Benchmarks werden auseinandergenommen, und auf Reddit diskutiert man, ob Open-Source-KI gerade den Wendepunkt erreicht hat. Kurze Antwort: fast.

Was Gemma 4 ist

Vier Modelle, zwei Architekturen — von Android-Phones bis zum Workstation-GPU:

Modell	Aktive Parameter	Kontext	Besonderheit
E2B	2,3B	128K	Läuft auf einem i7-Laptop, inkl. Audio
E4B	4,5B	128K	Edge-Device, Audio-Input nativ
26B MoE	3,8B aktiv / 26B total	256K	128 Experten, nur 3,8B pro Token
31B Dense	30,7B	256K	Flaggschiff, Platz #3 weltweit

Alle vier Modelle verarbeiten Text, Bilder und Video nativ. Die kleineren zusätzlich Audio — was die größeren nicht können, ein ungewöhnlicher Design-Entscheid.

Lizenz: Apache 2.0. Dazu gleich mehr.

Die Zahlen, die man kennen muss

Gemma 3 war ein solides Modell. Es gewann keine Kategorie. Gemma 4 ist eine andere Geschichte:

Benchmark	Gemma 3 27B	Gemma 4 31B	Sprung
AIME 2026 (Mathe)	20,8%	89,2%	+68 Punkte
GPQA Diamond (Reasoning)	42,4%	84,3%	+42 Punkte
LiveCodeBench v6 (Coding)	29,1%	80,0%	+51 Punkte
Codeforces ELO	110	2.150	+2.040 Punkte
MMMLU (Mehrsprachig)	70,7%	88,4%	+18 Punkte

Gemma 4 Performance vs. Modellgröße — Pareto-Frontier-Chart zeigt Gemma 4 als bestes Open-Modell pro Parameter (Quelle: HuggingFace / Google)

Das sind keine iterativen Verbesserungen. Beim Mathe-Olympiade-Benchmark (AIME) hat sich die Score mehr als vervierfacht. Beim Competitive-Programming-ELO ist Gemma 4 von “kaum funktional” auf Expert-Niveau gesprungen.

Das 26B MoE-Modell ist dabei die technisch interessantere Zahl: Es erreicht 97% der Qualität des 31B-Flaggschiffs — bei nur 3,8B aktiven Parametern pro Inference-Schritt. 8x weniger Rechenaufwand für 3% weniger Qualität.

Die eigentliche Neuigkeit: Apache 2.0

Benchmark-Sprünge kommen und gehen. Was bei Gemma 4 wirklich zählt, steht im Lizenz-Header.

Gemma 3 lief unter einer eigenen Google-Lizenz. Technisch “offen”, aber mit Klauseln, die Google das Recht gaben, den Zugang zu terminieren — und die Terms einseitig zu ändern. Enterprise Legal Teams haben das gesehen und Gemma 3 oft nicht durchgewunken. Zu viel Unsicherheit für ein Produkt, das auf dem Modell aufbauen soll.

Qwen von Alibaba und Mistral liefen schon länger unter Apache 2.0. Sie haben dadurch Enterprise-Deals gewonnen, die Gemma verloren hat.

Gemma 4 unter Apache 2.0 ändert das. Die Lizenz-Terms sind mit dem Release eingefroren — Google kann sie nicht mehr nachträglich anpassen. Kein Legal-Review mehr nötig, kein Risiko-Assessment. Für Unternehmen, die KI-Produkte on-premise oder in regulierten Umgebungen betreiben, ist das der entscheidende Unterschied.

Clement Delangue, CEO von Hugging Face, nannte es einen “huge milestone” — was er normalerweise nicht schreibt.

Kann Gemma 4 mit Claude oder GPT-5 mithalten?

Direkt gesagt: teilweise — und genau das ist das Interessante.

Gemma 4 31B liegt auf Arena AI bei einem LMArena-Score von ~1.452, vergleichbar mit GPT-5-mini und über GPT-OSS-120B. Bei Coding (Codeforces ELO 2.150) schlägt es praktisch alle Open-Source-Modelle.

Claude Opus 4.6 oder GPT-5 holt es nicht ein. Das sind Frontier-Modelle mit deutlich mehr Parametern, massiv mehr Trainingsaufwand und jahrelanger Optimierung für komplexe Reasoning-Chains. Daran ändert sich mit Gemma 4 nichts.

Der realistische Vergleich: Gemma 4 31B ist ein direkter Konkurrent zu Claude Haiku oder GPT-4o mini — bei null Kosten pro Query, on-premise deploybar, ohne Datenschutzbedenken, ohne Rate Limits.

Wer heute Claude Haiku für interne Tools oder Batch-Processing nutzt und die API-Kosten spürt: Gemma 4 ist eine konkrete Alternative, die sich rechnet.

Was die Community nach 24 Stunden wirklich gefunden hat

Die Benchmarks stimmen. Die Praxis hat aber auch Baustellen gezeigt.

Inference-Speed beim MoE: Mehrere User berichten 11 Token/Sekunde für das 26B MoE-Modell auf einer RTX 5060 Ti — verglichen mit 60+ Token/Sekunde bei Qwen 3.5 35B auf derselben Karte. Das MoE-Design mit 128 kleinen Experten ist offenbar noch nicht optimal für aktuelle Consumer-Hardware optimiert.

VRAM-Verbrauch: Gemma 4 braucht bei langen Kontexten mehr VRAM als Qwen 3.5 bei gleicher Quantisierung. Das 256K-Kontextfenster in der Praxis zu nutzen, setzt mehr Hardware voraus als der Parameter-Count vermuten lässt.

Fine-Tuning am Tag 0: Hugging Face Transformers erkannte die neue gemma4-Architektur nicht (Workaround: From-Source installieren). PEFT hatte Probleme mit neuen Layer-Typen im Vision Encoder. Innerhalb von Stunden kamen Issues und PRs — aber wer sofort fine-tunen wollte, hatte Arbeit vor sich.

Mehrsprachigkeit: Überraschend stark. Tests in Deutsch, Arabisch und Vietnamesisch zeigen bessere Ergebnisse als Qwen 3.5. Für globale Deployments ein echter Vorteil.

Was noch fehlt: QAT-Versionen (quantization-aware training) — diese kamen bei Gemma 3 einige Wochen nach Release und verbessern quantisierte Modelle erheblich. Auch ein 9-12B Dense-Modell gibt es nicht, was eine Lücke für Nutzer mit Mittelklasse-GPUs lässt.

Gemma 4 Arena ELO Score Vergleich — 31B und 26B MoE unter den Top-Open-Modellen weltweit (Quelle: HuggingFace / LMArena)

Was das für dich bedeutet

Wenn du heute Folgendes planst oder betreibst:

Interne KI-Tools mit Datenschutzanforderungen: Gemma 4 E4B oder 31B lokal auf einem einzelnen Server.
Agentic Workflows (Function-Calling, strukturiertes JSON): Native unterstützt, kein Prompting-Workaround nötig.
Mehrsprachige Anwendungen: Stärkste Open-Source-Option im Bereich, besser als Qwen 3.5 für europäische Sprachen.
Edge / Mobile AI: E2B läuft auf einem i7-Laptop mit 32 GB RAM mit brauchbarer Latenz.

Für Coding-Assistenten auf dem eigenen Server ist Gemma 4 31B heute schon produktionsreif — mit Einschränkungen beim Fine-Tuning-Tooling, das in den nächsten Wochen stabil wird.

Fazit

Gemma 4 ist das stärkste Open-Source-Modell, das Google je veröffentlicht hat. Die Benchmark-Sprünge von Gemma 3 auf 4 sind die größten, die wir in einer Generation im Open-Source-Bereich gesehen haben.

Frontier-Modelle wie Claude Opus oder GPT-5 ersetzt es nicht. Für lokale Deployments, Batch-Processing, interne Tools und On-Premise-Anforderungen ist es ab sofort erste Wahl — nicht weil es keine Alternativen gibt, sondern weil die Kombination aus Qualität, Apache-2.0-Lizenz und Hardware-Effizienz im Open-Source-Bereich so bisher nicht existiert hat.

Der eigentliche Shift ist nicht technisch. Es ist, dass Google zum ersten Mal ein Modell mit denselben Rechten veröffentlicht hat wie jeder andere Open-Source-Code auf deinem Server.

Du planst, KI-Modelle in deiner Infrastruktur zu betreiben? Wir helfen bei der Evaluierung, dem Deployment und der Integration — on-premise oder in der Cloud. Sprich uns an.