Google’dan Bomba: Gemma 4 ile 31 Milyar Parametrede Devleri Titretiyor, Üstelik Ses ve Görüntü Destekli

Google, açık kaynak yapay zeka dünyasına bomba gibi düştü. Qwen 3.5’in yarattığı devrim henüz sindirilmeden, Google Gemma 4 ailesini duyurarak açık kaynak yarışını bambaşka bir seviyeye taşıdı. En güçlü model olan Gemma 4 31B, sadece 31 milyar parametreyle trilyon parametrelik devlerle yarışırken, görüntü ve ses desteğiyle tam anlamıyla multimodal bir deneyim sunuyor.

Dört Model, Her İhtiyaca Bir Cevap

Gemma 4 ailesi dört farklı modelden oluşuyor:

Model Parametre Bağlam Penceresi Öne Çıkan Özellik
Gemma 4 31B 31B (dense) 256K token En güçlü, en yetenekli
Gemma 4 26B-A4B 26B toplam / 4B aktif (MoE) 256K token Verimli MoE mimarisi
Gemma 4 E4B 4,5B efektif (8B toplam) 128K token Ses desteği
Gemma 4 E2B 2,3B efektif (5,1B toplam) 128K token En küçük, cihaz üzerinde çalışabilir

31 Milyar Parametreyle Devleri Titretiyor

Gemma 4 31B’nin benchmark sonuçları göz kamaştırıyor. LMArena’da tahmini 1452 Elo puanına ulaşan model, AIME 2026 matematik testinde yüzde 89,2, GPQA Diamond’da yüzde 84,3 ve MMLU Pro’da yüzde 85,2 başarı oranı elde ediyor. Kodlama tarafında ise LiveCodeBench v6’da yüzde 80 ve Codeforces’ta 2150 Elo ile ciddi bir performans sergiliyor.

MoE versiyonu Gemma 4 26B-A4B ise sadece 4 milyar aktif parametreyle 1441 Elo’ya ulaşarak, boyutunun çok üzerinde bir performans ortaya koyuyor. AIME 2026’da yüzde 88,3 ve MMLU Pro’da yüzde 82,6 gibi rakamlar, bu kadar küçük bir aktif parametre sayısı için inanılmaz.

Görüntü ve Ses Desteği: Tam Multimodal

Gemma 4’ün en heyecan verici taraflarından biri tam multimodal desteği. Tüm modeller görüntü ve metin işleyebilirken, E2B ve E4B modelleri buna ek olarak ses girişini de destekliyor. Görüntü tarafında nesne algılama, GUI tespiti, OCR, görsel akıl yürütme gibi yetenekler mevcut. Ses tarafında ise konuşmadan metne dönüşüm ve sesli soru-cevap destekleniyor.

Video anlama desteği de tüm modellerde var. E2B ve E4B modelleri video içindeki ses parçasını da işleyebilirken, büyük modeller (26B-A4B ve 31B) videoyu görsel olarak analiz edip sesi ayrı olarak işleyebiliyor.

RTX 3090’da Son Kalite LLM

Gemma 4’ün belki de en çarpıcı özelliklerinden biri erişilebilirliği. 31B dense model, int4 kuantizasyon ile yaklaşık 8-10 GB VRAM’e sığabiliyor; bu da bir RTX 3090 (24 GB VRAM) üzerinde rahatlıkla çalıştırılabileceği anlamına geliyor. MoE versiyonu olan 26B-A4B ise int8 ile 13-15 GB civarında VRAM kullanıyor.

Küçük modeller daha da erişilebilir: E4B int4 ile 3-4 GB, E2B ise sadece 2 GB VRAM ile çalışabiliyor. Yani bir akıllı telefonda bile yapay zeka çalıştırmak artık hayal değil.

Model, GGUF kuantizasyon desteğiyle llama.cpp, LM Studio ve Ollama üzerinde yerel olarak çalıştırılabiliyor. Apple Silicon kullanıcıları için MLX desteği, tarayıcı tabanlı çıkarım için WebGPU üzerinden ONNX desteği ve Rust severler için mistral.rs entegrasyonu da mevcut.

Teknik Yenilikler

Gemma 4, mimari açıdan da dikkat çekici yenilikler içeriyor. Yerel kayan pencere (sliding window) ve global tam bağlam dikkat katmanlarını dönüşümlü kullanan bir attention yapısı, uzun bağlam desteği için Dual RoPE sistemi, her decoder katmanına ek sinyal sağlayan Per-Layer Embeddings (PLE) ve bellek tasarrufu için Shared KV Cache mekanizması öne çıkıyor.

Görüntü tarafında öğrenilmiş 2D pozisyonlar ve en-boy oranı koruma desteğiyle birlikte, token bütçesi 70 ile 1120 arasında ayarlanabiliyor; bu da hız-kalite dengesini kullanıcının eline bırakıyor.

Apache 2.0 Lisansı ve Geniş Ekosistem

Gemma 4 tüm modelleri Apache 2.0 lisansıyla yayınlandı, yani ticari kullanım dahil tamamen serbest. Hugging Face, llama.cpp, MLX, mistral.rs, Transformers.js ve daha pek çok framework ile ilk günden uyumlu. Fine-tuning için TRL, Unsloth Studio ve Vertex AI desteği de mevcut.

Model ağırlıkları Hugging Face üzerinden indirilebilir durumda.

Kaynak: Google Blog | Hugging Face Blog

Comments

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir