Gemma 4 12B Unified: 8 GB VRAM'lı GPU'larda Çalışabilen Yeni Encoder-Free Multimodal Model

Google DeepMind, Gemma 4 ailesinin 12B Unified varyantını yayınladı. Apache 2.0 lisanslı, 11,95 milyar parametreli, üç modaliteyi (metin + görsel + ses) ayrı encoder olmadan tek bir transformer içinde işleyen bu model, özellikle 8 GB VRAM’li tüketici GPU’larında rahat çalışabilen yeni jenerasyon küçük-orta multimodal modelin önemli bir temsilcisi.

Türkiye’de geliştirici tarafında Gemma 4 ailesi şimdiden ilgi gördü. Biz de Gemma 4 26B-A4B’nin Türkçeye uyarlanmış expert-pruned varyantını hazırlamıştık; 128 expert’ten 101’ini koruyup Türkçe + kod + matematik karışım instruction veri seti üzerinde LoRA ile iyileştirdik. O model A4B (Aktif 4B parametre) yapısı sayesinde inference hızı yüksek — ama bellek ayak izi 20B’de kalıyor; 24 GB+ VRAM gerektiriyor. Şimdi yayınlanan 12B Unified ise farklı bir trade-off sunuyor: biraz daha yavaş ama çok daha az VRAM kullanıyor — 8 GB skala kartlarda Q4 quantize edilmiş halde gerçekten çalışabiliyor.

Gemma 4 ailesi: beş varyant

Gemma 4, beş ayrı boyutta yayınlanan bir ailenin adı:

E2B: 2,3B effective (5,1B with embeddings). Dense. Metin + görsel + ses. 128K context.
E4B: 4,5B effective (8B with embeddings). Dense. Metin + görsel + ses. 128K context.
12B Unified: 11,95B dense. Metin + görsel + ses (encoder-free). 256K context.
26B A4B MoE: 25,2B toplam, 3,8B aktif. Metin + görsel. 256K context.
31B Dense: 30,7B. Metin + görsel (ses yok). 256K context.

“E” harfi “effective”den geliyor; küçük modellerde Per-Layer Embeddings (PLE) tekniği kullanılıyor — her decoder katmanı kendi küçük embedding tablosuyla geliyor. Bu tablolar büyük ama sadece hızlı lookup için kullanılıyor, dolayısıyla effective compute parametre sayısı çok daha küçük.

“Unified” ne anlama geliyor?

12B varyantındaki “Unified” ifadesi Gemma 4’ün gerçek yeniliklerinden birini ifade ediyor: encoder-free multimodal.

Klasik multimodal modellerde (Gemma 4 E2B, E4B, 31B dahil) görsel ve ses için ayrı encoder ağları var — bir vision encoder (~150-550M parametre) görseli LLM’in anlayacağı embedding’e dönüştürür, bir audio encoder (~300M parametre) ses dalgalarını embed eder. Sonra bu embedding’ler LLM’e iletilir.

12B Unified bu encoder’ları kaldırdı. Ham görüntü patch’leri ve ses dalgaları doğrudan hafif lineer projeksiyon katmanları üzerinden LLM’in embedding alanına aktarılıyor. Tüm modaliteler tek bir decoder-only transformer içine akıyor.

Bunun pratik avantajları:

Daha düşük multimodal latency: Encoder katmanları arası geçiş yok.
Tek geçişte fine-tune: Tüm parametreler aynı modelin parçası, ayrı encoder eğitimi gerektirmiyor.
Deployment basitliği: Tek dosya, tek runtime.

8 GB VRAM’de gerçekten çalışıyor mu?

12 milyar parametreli bir model bf16 precision’da ~24 GB VRAM ister. Ama quantize edildiğinde:

Q4_K_M: ~7-8 GB — 8 GB’lık RTX 3060 Ti, RTX 3070, RTX 4060, RTX 5060’ta sığar.
Q5_K_M: ~9 GB — 10-12 GB’lık 3080, 4070, 5070’te rahat.
Q3_K_M / IQ3: ~6-7 GB — daha kalitede taviz, ama daha eski 6 GB kartlarda bile çalışır.

llama.cpp veya Ollama üzerinden GGUF formatında quantize edilmiş versiyonlar zaten Hugging Face’te mevcut. Bu, bir Apple Silicon dizüstüde, AMD Ryzen AI Max+ 395’te, hatta orta seviye bir gaming kartında 256K context, multimodal asistanın yerel çalışmasını mümkün kılıyor.

Karşılaştırma: Türkçe uyarlanmış 26B-A4B varyantımız Q4_K_M’de ~13,6 GB; 24 GB+ kart gerektirir. Aktif 4B parametreli olduğu için inference hızı çok yüksek, ama VRAM ayak izi büyük. 8 GB skalada 12B Unified’ın pabucunu dama atırıyor — biraz daha yavaş çalışsa bile, kart sığabilirliği açısından kıyaslanamaz.

Mimari detaylar

Gemma 4 12B Unified’ın teknik özellikleri:

Toplam parametre: 11,95B.
Katman: 48.
Context: 256K token.
Sliding window: 1024 token (hybrid attention: local + global).
Vocabulary: 262K.
Modaliteler: Metin + görsel + ses (encoder-free).
Düşünme modu: Built-in reasoning, <|think|> token’ı ile açılıp kapanabiliyor.
Lisans: Apache 2.0.

Hybrid attention sistemi ilginç: sliding window local attention ile full global attention’ı interleaved kullanıyor, son katman her zaman global. Global katmanlar Unified Keys/Values ve Proportional RoPE (p-RoPE) ile uzun context için bellek optimize edilmiş.

Benchmark’lar: 12B sınıfında üst seviye

12B Unified’ın instruction-tuned versiyonu (it):

MMLU Pro: 77,2% (vs Gemma 3 27B no-think: 67,6%).
AIME 2026 (matematik olimpiyat): 77,5% (vs Gemma 3 27B: sadece 20,8%).
LiveCodeBench v6: 72,0% (Gemma 3 27B: 29,1%).
Codeforces ELO: 1.659 (Gemma 3 27B: 110).
GPQA Diamond (lisansüstü bilim): 78,8% (Gemma 3 27B: 42,4%).
Tau2 (agent): 69,0%.
BigBench Extra Hard: 53,0%.
MMMLU (çok dilli): 83,4%.
MMMU Pro (multimodal): 69,1%.
MATH-Vision: 79,7%.
MedXPertQA MM (tıbbi multimodal): 48,7%.
CoVoST (ses çeviri): 38,5.
MRCR v2 8 needle 128K (uzun context): 43,4%.

Yani sadece bir önceki nesil Gemma 3 27B’yi değil, AIME ve Codeforces gibi tipik “reasoning ve kodlama” ölçütlerinde onu çok ciddi farklarla geçiyor.

Türkçe için ne anlama geliyor?

Gemma 4’ün eğitim verisi 140+ dilde, doğrudan 35+ dilde out-of-the-box destek var. Türkçe bu sette. MMMLU 83,4 skoru — çoğu Latin alfabesi dili dahil — Türkçe sorgulara da güçlü performans gösterebileceğini ima ediyor.

Bizim hazırladığımız Türkçe expert-pruned varyantımız 26B-A4B tabanlıydı; eğer 12B Unified üzerinde de benzer bir Türkçe instruction fine-tune yapılırsa, 8 GB sınıfında çalışabilen ilk gerçek “Türkçe konuşan multimodal asistan” ortaya çıkabilir. Bu, hem geliştirici dünyasında hem de eğitim, sağlık ve içerik üretimi senaryolarında önemli bir adım olur.

Kimin işine yarar?

8 GB VRAM’li GPU’su olan geliştiriciler: RTX 3060 Ti, 3070, 4060, 5060 sahipleri Q4_K_M ile rahat çalıştırır. Ses transkripsiyon, görsel anlama, kod yazımı, 256K context ile uzun doküman analizi yapabilir.

Apple Silicon kullanıcıları: M1 Pro/Max’ten itibaren 16 GB+ unified memory’li Mac’lerde MLX üzerinden hızlı çalışır.

Edge AI uygulamaları: AMD Ryzen AI Max+ 395 gibi 128 GB unified memory’li mini PC’lerde, hatta düşük precision’la üst seviye dizüstü bilgisayarlarda.

26B-A4B alternatifi gerekenler: Eğer VRAM bütçeniz darsa ama yüksek kalite istiyorsanız, 12B Unified daha pratik bir tercih. Inference biraz daha yavaş olabilir ama kart sığması garanti.

Sonuç

Gemma 4 12B Unified, Google’ın açık ağırlık ekosistemine yaptığı stratejik bir katkı. Encoder-free multimodal yaklaşımı henüz açık kaynak alanında nadir; AIME, Codeforces ve GPQA Diamond’da bir önceki nesli yıkıcı şekilde geride bırakıyor; ve Apache 2.0 lisansı sayesinde herhangi bir kullanım kısıtlaması olmadan ticari projeler dahil her yere konabiliyor.

26B-A4B’nin hızı ile 12B Unified’ın bellek sığabilirliği arasındaki seçim, geliştiricinin donanımına bağlı. Ama 8 GB VRAM’li bir GPU’ya sahip Türkiye’deki birçok geliştirici için artık “yerel multimodal asistan” gerçek bir seçenek — 12B Unified bunu pratikte mümkün kılıyor.