Google, açık kaynak yapay zeka dünyasına bomba gibi düştü. Qwen 3.5’in yarattığı devrim henüz sindirilmeden, Google Gemma 4 ailesini duyurarak açık kaynak yarışını bambaşka bir seviyeye taşıdı. En güçlü model olan Gemma 4 31B, sadece 31 milyar parametreyle trilyon parametrelik devlerle yarışırken, görüntü ve ses desteğiyle tam anlamıyla multimodal bir deneyim sunuyor.
Dört Model, Her İhtiyaca Bir Cevap
Gemma 4 ailesi dört farklı modelden oluşuyor:
| Model | Parametre | Bağlam Penceresi | Öne Çıkan Özellik |
|---|---|---|---|
| Gemma 4 31B | 31B (dense) | 256K token | En güçlü, en yetenekli |
| Gemma 4 26B-A4B | 26B toplam / 4B aktif (MoE) | 256K token | Verimli MoE mimarisi |
| Gemma 4 E4B | 4,5B efektif (8B toplam) | 128K token | Ses desteği |
| Gemma 4 E2B | 2,3B efektif (5,1B toplam) | 128K token | En küçük, cihaz üzerinde çalışabilir |
31 Milyar Parametreyle Devleri Titretiyor
Gemma 4 31B’nin benchmark sonuçları göz kamaştırıyor. LMArena’da tahmini 1452 Elo puanına ulaşan model, AIME 2026 matematik testinde yüzde 89,2, GPQA Diamond’da yüzde 84,3 ve MMLU Pro’da yüzde 85,2 başarı oranı elde ediyor. Kodlama tarafında ise LiveCodeBench v6’da yüzde 80 ve Codeforces’ta 2150 Elo ile ciddi bir performans sergiliyor.
MoE versiyonu Gemma 4 26B-A4B ise sadece 4 milyar aktif parametreyle 1441 Elo’ya ulaşarak, boyutunun çok üzerinde bir performans ortaya koyuyor. AIME 2026’da yüzde 88,3 ve MMLU Pro’da yüzde 82,6 gibi rakamlar, bu kadar küçük bir aktif parametre sayısı için inanılmaz.
Görüntü ve Ses Desteği: Tam Multimodal
Gemma 4’ün en heyecan verici taraflarından biri tam multimodal desteği. Tüm modeller görüntü ve metin işleyebilirken, E2B ve E4B modelleri buna ek olarak ses girişini de destekliyor. Görüntü tarafında nesne algılama, GUI tespiti, OCR, görsel akıl yürütme gibi yetenekler mevcut. Ses tarafında ise konuşmadan metne dönüşüm ve sesli soru-cevap destekleniyor.
Video anlama desteği de tüm modellerde var. E2B ve E4B modelleri video içindeki ses parçasını da işleyebilirken, büyük modeller (26B-A4B ve 31B) videoyu görsel olarak analiz edip sesi ayrı olarak işleyebiliyor.
RTX 3090’da Son Kalite LLM
Gemma 4’ün belki de en çarpıcı özelliklerinden biri erişilebilirliği. 31B dense model, int4 kuantizasyon ile yaklaşık 8-10 GB VRAM’e sığabiliyor; bu da bir RTX 3090 (24 GB VRAM) üzerinde rahatlıkla çalıştırılabileceği anlamına geliyor. MoE versiyonu olan 26B-A4B ise int8 ile 13-15 GB civarında VRAM kullanıyor.
Küçük modeller daha da erişilebilir: E4B int4 ile 3-4 GB, E2B ise sadece 2 GB VRAM ile çalışabiliyor. Yani bir akıllı telefonda bile yapay zeka çalıştırmak artık hayal değil.
Model, GGUF kuantizasyon desteğiyle llama.cpp, LM Studio ve Ollama üzerinde yerel olarak çalıştırılabiliyor. Apple Silicon kullanıcıları için MLX desteği, tarayıcı tabanlı çıkarım için WebGPU üzerinden ONNX desteği ve Rust severler için mistral.rs entegrasyonu da mevcut.
Teknik Yenilikler
Gemma 4, mimari açıdan da dikkat çekici yenilikler içeriyor. Yerel kayan pencere (sliding window) ve global tam bağlam dikkat katmanlarını dönüşümlü kullanan bir attention yapısı, uzun bağlam desteği için Dual RoPE sistemi, her decoder katmanına ek sinyal sağlayan Per-Layer Embeddings (PLE) ve bellek tasarrufu için Shared KV Cache mekanizması öne çıkıyor.
Görüntü tarafında öğrenilmiş 2D pozisyonlar ve en-boy oranı koruma desteğiyle birlikte, token bütçesi 70 ile 1120 arasında ayarlanabiliyor; bu da hız-kalite dengesini kullanıcının eline bırakıyor.
Apache 2.0 Lisansı ve Geniş Ekosistem
Gemma 4 tüm modelleri Apache 2.0 lisansıyla yayınlandı, yani ticari kullanım dahil tamamen serbest. Hugging Face, llama.cpp, MLX, mistral.rs, Transformers.js ve daha pek çok framework ile ilk günden uyumlu. Fine-tuning için TRL, Unsloth Studio ve Vertex AI desteği de mevcut.
Model ağırlıkları Hugging Face üzerinden indirilebilir durumda.
Kaynak: Google Blog | Hugging Face Blog


Bir yanıt yazın