← Zurück zum Blog

Gemma 4: Verändert Googles Open-Source-KI die Spielregeln?

Google hat mit Gemma 4 das bisher stärkste Open-Source-Modell veröffentlicht — Apache 2.0, läuft lokal, schlägt Modelle die 20x größer sind. Kann es mit kostenpflichtigen Modellen wie Claude mithalten?

AIOpen SourceGoogleLLMMachine Learning
  1. April 2026. Google veröffentlicht Gemma 4. Innerhalb von 24 Stunden laufen tausende Community-Tests, Benchmarks werden auseinandergenommen, und auf Reddit diskutiert man, ob Open-Source-KI gerade den Wendepunkt erreicht hat. Kurze Antwort: fast.

Was Gemma 4 ist

Vier Modelle, zwei Architekturen — von Android-Phones bis zum Workstation-GPU:

ModellAktive ParameterKontextBesonderheit
E2B2,3B128KLäuft auf einem i7-Laptop, inkl. Audio
E4B4,5B128KEdge-Device, Audio-Input nativ
26B MoE3,8B aktiv / 26B total256K128 Experten, nur 3,8B pro Token
31B Dense30,7B256KFlaggschiff, Platz #3 weltweit

Alle vier Modelle verarbeiten Text, Bilder und Video nativ. Die kleineren zusätzlich Audio — was die größeren nicht können, ein ungewöhnlicher Design-Entscheid.

Lizenz: Apache 2.0. Dazu gleich mehr.

Die Zahlen, die man kennen muss

Gemma 3 war ein solides Modell. Es gewann keine Kategorie. Gemma 4 ist eine andere Geschichte:

BenchmarkGemma 3 27BGemma 4 31BSprung
AIME 2026 (Mathe)20,8%89,2%+68 Punkte
GPQA Diamond (Reasoning)42,4%84,3%+42 Punkte
LiveCodeBench v6 (Coding)29,1%80,0%+51 Punkte
Codeforces ELO1102.150+2.040 Punkte
MMMLU (Mehrsprachig)70,7%88,4%+18 Punkte
Gemma 4 Performance vs. Modellgröße — Pareto-Frontier-Chart zeigt Gemma 4 als bestes Open-Modell pro Parameter (Quelle: HuggingFace / Google)

Das sind keine iterativen Verbesserungen. Beim Mathe-Olympiade-Benchmark (AIME) hat sich die Score mehr als vervierfacht. Beim Competitive-Programming-ELO ist Gemma 4 von “kaum funktional” auf Expert-Niveau gesprungen.

Das 26B MoE-Modell ist dabei die technisch interessantere Zahl: Es erreicht 97% der Qualität des 31B-Flaggschiffs — bei nur 3,8B aktiven Parametern pro Inference-Schritt. 8x weniger Rechenaufwand für 3% weniger Qualität.

Die eigentliche Neuigkeit: Apache 2.0

Benchmark-Sprünge kommen und gehen. Was bei Gemma 4 wirklich zählt, steht im Lizenz-Header.

Gemma 3 lief unter einer eigenen Google-Lizenz. Technisch “offen”, aber mit Klauseln, die Google das Recht gaben, den Zugang zu terminieren — und die Terms einseitig zu ändern. Enterprise Legal Teams haben das gesehen und Gemma 3 oft nicht durchgewunken. Zu viel Unsicherheit für ein Produkt, das auf dem Modell aufbauen soll.

Qwen von Alibaba und Mistral liefen schon länger unter Apache 2.0. Sie haben dadurch Enterprise-Deals gewonnen, die Gemma verloren hat.

Gemma 4 unter Apache 2.0 ändert das. Die Lizenz-Terms sind mit dem Release eingefroren — Google kann sie nicht mehr nachträglich anpassen. Kein Legal-Review mehr nötig, kein Risiko-Assessment. Für Unternehmen, die KI-Produkte on-premise oder in regulierten Umgebungen betreiben, ist das der entscheidende Unterschied.

Clement Delangue, CEO von Hugging Face, nannte es einen “huge milestone” — was er normalerweise nicht schreibt.

Kann Gemma 4 mit Claude oder GPT-5 mithalten?

Direkt gesagt: teilweise — und genau das ist das Interessante.

Gemma 4 31B liegt auf Arena AI bei einem LMArena-Score von ~1.452, vergleichbar mit GPT-5-mini und über GPT-OSS-120B. Bei Coding (Codeforces ELO 2.150) schlägt es praktisch alle Open-Source-Modelle.

Claude Opus 4.6 oder GPT-5 holt es nicht ein. Das sind Frontier-Modelle mit deutlich mehr Parametern, massiv mehr Trainingsaufwand und jahrelanger Optimierung für komplexe Reasoning-Chains. Daran ändert sich mit Gemma 4 nichts.

Der realistische Vergleich: Gemma 4 31B ist ein direkter Konkurrent zu Claude Haiku oder GPT-4o mini — bei null Kosten pro Query, on-premise deploybar, ohne Datenschutzbedenken, ohne Rate Limits.

Wer heute Claude Haiku für interne Tools oder Batch-Processing nutzt und die API-Kosten spürt: Gemma 4 ist eine konkrete Alternative, die sich rechnet.

Was die Community nach 24 Stunden wirklich gefunden hat

Die Benchmarks stimmen. Die Praxis hat aber auch Baustellen gezeigt.

Inference-Speed beim MoE: Mehrere User berichten 11 Token/Sekunde für das 26B MoE-Modell auf einer RTX 5060 Ti — verglichen mit 60+ Token/Sekunde bei Qwen 3.5 35B auf derselben Karte. Das MoE-Design mit 128 kleinen Experten ist offenbar noch nicht optimal für aktuelle Consumer-Hardware optimiert.

VRAM-Verbrauch: Gemma 4 braucht bei langen Kontexten mehr VRAM als Qwen 3.5 bei gleicher Quantisierung. Das 256K-Kontextfenster in der Praxis zu nutzen, setzt mehr Hardware voraus als der Parameter-Count vermuten lässt.

Fine-Tuning am Tag 0: Hugging Face Transformers erkannte die neue gemma4-Architektur nicht (Workaround: From-Source installieren). PEFT hatte Probleme mit neuen Layer-Typen im Vision Encoder. Innerhalb von Stunden kamen Issues und PRs — aber wer sofort fine-tunen wollte, hatte Arbeit vor sich.

Mehrsprachigkeit: Überraschend stark. Tests in Deutsch, Arabisch und Vietnamesisch zeigen bessere Ergebnisse als Qwen 3.5. Für globale Deployments ein echter Vorteil.

Was noch fehlt: QAT-Versionen (quantization-aware training) — diese kamen bei Gemma 3 einige Wochen nach Release und verbessern quantisierte Modelle erheblich. Auch ein 9-12B Dense-Modell gibt es nicht, was eine Lücke für Nutzer mit Mittelklasse-GPUs lässt.

Gemma 4 Arena ELO Score Vergleich — 31B und 26B MoE unter den Top-Open-Modellen weltweit (Quelle: HuggingFace / LMArena)

Was das für dich bedeutet

Wenn du heute Folgendes planst oder betreibst:

  • Interne KI-Tools mit Datenschutzanforderungen: Gemma 4 E4B oder 31B lokal auf einem einzelnen Server.
  • Agentic Workflows (Function-Calling, strukturiertes JSON): Native unterstützt, kein Prompting-Workaround nötig.
  • Mehrsprachige Anwendungen: Stärkste Open-Source-Option im Bereich, besser als Qwen 3.5 für europäische Sprachen.
  • Edge / Mobile AI: E2B läuft auf einem i7-Laptop mit 32 GB RAM mit brauchbarer Latenz.

Für Coding-Assistenten auf dem eigenen Server ist Gemma 4 31B heute schon produktionsreif — mit Einschränkungen beim Fine-Tuning-Tooling, das in den nächsten Wochen stabil wird.

Fazit

Gemma 4 ist das stärkste Open-Source-Modell, das Google je veröffentlicht hat. Die Benchmark-Sprünge von Gemma 3 auf 4 sind die größten, die wir in einer Generation im Open-Source-Bereich gesehen haben.

Frontier-Modelle wie Claude Opus oder GPT-5 ersetzt es nicht. Für lokale Deployments, Batch-Processing, interne Tools und On-Premise-Anforderungen ist es ab sofort erste Wahl — nicht weil es keine Alternativen gibt, sondern weil die Kombination aus Qualität, Apache-2.0-Lizenz und Hardware-Effizienz im Open-Source-Bereich so bisher nicht existiert hat.

Der eigentliche Shift ist nicht technisch. Es ist, dass Google zum ersten Mal ein Modell mit denselben Rechten veröffentlicht hat wie jeder andere Open-Source-Code auf deinem Server.


Du planst, KI-Modelle in deiner Infrastruktur zu betreiben? Wir helfen bei der Evaluierung, dem Deployment und der Integration — on-premise oder in der Cloud. Sprich uns an.

← Alle Artikel