Google Gemma 4 Multi-Token Prediction (MTP): Kalite Kaybı Olmadan 3 Kata Kadar Hızlanma

Google, Gemma 4 ailesi için kayda değer bir performans yeniliği duyurdu: Multi-Token Prediction (MTP). Yapay zeka modeli inference hızını 3 kata kadar artıran bu teknik, çıktı kalitesinden ve reasoning mantığından ödün vermeden çalışıyor. Aslında konsept yeni değil — speculative decoding’in olgunlaşmış bir uygulaması. Ancak Google’ın Gemma 4 ailesi için hazırlayıp açık kaynak olarak yayımladığı drafter modeller, lokal LLM kullanıcıları için somut bir hız kazancı sağlıyor.

Sorun: LLM’ler Memory-Bandwidth Bound

LLM’lerin neden yavaş olduğu konusunda popüler bir yanılgı var: yüksek hesaplama gücü gerektirdiği için yavaşlar sanılıyor. Gerçek farklı: LLM inference temelde memory-bandwidth bound. Yani GPU çoğu zaman aslında bir şey hesaplamıyor; modelin parametrelerini VRAM’den compute unit’lere taşımakla meşgul. Bu yüzden iki kat daha güçlü bir GPU, iki kat hız kazandırmıyor; bellek bant genişliği darboğazı oluyor.

Geleneksel autoregressive inference modelin her döngüde tek bir token üretmesi anlamına geliyor. “1 kelime düşün, 1 kelime yaz” mantığı. Basit ve karmaşık görevler için aynı hesaplama kaynağı kullanılıyor — ki bu da işlemcileri verimsiz kılıyor.

Çözüm: Speculative Decoding

Speculative decoding, Google araştırmacıları tarafından “Fast Inference from Transformers via Speculative Decoding” başlıklı makalede tanıtılan bir teknik. Mantığı şöyle:

  1. Hafif ve hızlı bir drafter model birden fazla geleceği hızlıca tahmin ediyor
  2. Ağır target model bu tahminleri tek bir forward pass’te doğruluyor
  3. Drafter doğruysa hepsi tek seferde kabul ediliyor; üstüne bir token daha üretiliyor

Yani küçük model “bence sıradaki 5 token şu” diyor; büyük model “evet, kabul” diyerek tek pass’te onaylıyor. Sonuç: 1 token üretmek için harcanan zamanda 5+1 token elde ediliyor.

Gemma 4 MTP’nin Farkı

Speculative decoding teorisi yeni değil. Ancak pratikte iki büyük sorun var: target ve drafter modellerin uyumlu çalışması zor, üstelik iki ayrı model belleği iki kat şişiriyor. Google’ın yaklaşımı bu iki sorunu çözüyor:

1. KV Cache Sharing

Drafter modeller, target modelin KV cache’ini doğrudan paylaşıyor. Yani drafter, bağlamı yeniden hesaplamak zorunda kalmıyor. Bu, bellek hem CPU-GPU yorgunluğunu hem de hesaplama maliyetini ciddi düşürüyor.

2. Embedding Tablosu Paylaşımı

Drafter, kendi embedding’ini taşımıyor; target modelin input embedding tablosunu kullanıyor. Bu sayede drafter ekstra bellek yükü yaratmıyor. Drafter, target modelin son katmanındaki aktivasyonları alıp token embedding’leri ile birleştirip down-project ediyor.

3. Token Clustering (E2B ve E4B için)

Edge varyantları olan E2B ve E4B’de Google bir adım daha atmış: token clustering. Drafter tüm vocabulary üzerinden tahmin yapmak yerine, benzer token’ları kümelere ayırıyor ve hesaplamayı seçili kümelerle sınırlıyor. Bu, edge cihazlarda (Android, iOS) inference süresini daha da kısaltıyor.

Performans: 3x’e Kadar Hızlanma

Google’ın paylaştığı performans verileri çarpıcı:

  • Apple Silicon: Batch size 4-8’de yaklaşık 2,2x hızlanma
  • NVIDIA A100: Benzer batch size’larda yine yaklaşık 2,2x hızlanma
  • NVIDIA RTX PRO 6000: Gemma 4 26B ile beklemenin yarıya inmesi (yaklaşık 2x)
  • Genel iddia: İyi koşullarda 3 kata kadar hızlanma

Önemli bir uyarı: batch size 1’de — yani tek kullanıcı, tek istek senaryosunda — overlap sınırlı kalıyor ve 26B A4B drafter’ı paralelizm zayıf donanımlarda hız kazandırmayabiliyor. Yüksek batch size’larda ise expert weight reuse sayesinde kazanç ciddi şekilde artıyor.

Hangi Modeller İçin?

Google, Gemma 4 ailesinin tüm büyük varyantları için drafter modelleri hazırladı:

  • Gemma 4 E2B (effective 2B) — edge için
  • Gemma 4 E4B (effective 4B) — edge için
  • Gemma 4 26B — orta sınıf
  • Gemma 4 31B Dense — flagship

Edge varyantlarda token clustering tekniği, Android ve iOS gibi mobile cihazlarda bile gerçek zamanlı kullanım için optimize edildi.

Kalite Kaybı Yok

MTP’nin en kritik özelliği: hızlanma çıktı kalitesi pahasına gelmiyor. Çünkü drafter sadece tahmin yapıyor; final karar her zaman target modele ait. Drafter yanlış tahmin yaparsa target model onları reddediyor ve normal yoldan devam ediyor. Yani:

  • Çıktı kalitesi: aynı
  • Reasoning mantığı: aynı
  • Tek değişen: hız

Bu, dataset bazlı destilasyon (distillation) tekniklerinden temel farkı. Distillation modelin daha küçük versiyonunu eğitir ve genelde küçük bir kalite kaybı yaratır. MTP ise final çıktıda hiçbir değişiklik üretmez; sadece çıktıya ulaşma yolunu hızlandırır.

Erişim ve Entegrasyon

MTP drafter modelleri tamamen açık kaynak. Lisans Apache 2.0. İndirme noktaları:

  • Hugging Face
  • Kaggle
  • Google AI Edge Gallery (Android ve iOS)

Çerçeve desteği geniş; popüler tüm inference engine’lar gün bir destek aldı:

  • Hugging Face Transformers
  • vLLM
  • SGLang
  • MLX (Apple Silicon için)
  • Ollama
  • LiteRT-LM

Yani halihazırda Gemma 4 çalıştırdığınız hangi platform olursa olsun, MTP desteği büyük ihtimalle hazır. vLLM’in son sürümü v0.20’de speculative decoding altyapısı zaten EAGLE3 yaygınlaşmasıyla birlikte güçlendirilmişti; MTP de aynı çerçevede çalışıyor.

EAGLE3 ile Karşılaştırma

Speculative decoding ailesinde EAGLE3 ile MTP’nin yaklaşımları farklı:

  • EAGLE3: Modelin iç katman aktivasyonlarını kullanarak küçük bir “draft head” ekler. Ayrı bir model dosyası gerekmez ama target modelle birlikte özel olarak eğitilir.
  • Gemma 4 MTP: Ayrı drafter modelleri kullanır ama bu drafter’lar target modelle KV cache ve embedding tablosunu paylaşır. Hazır gelir, ek eğitim gerektirmez.

İkisi de benzer hız kazançları sağlıyor; pratikte hangisinin daha iyi çalışacağı modele ve donanıma bağlı. Gemma 4 için Google’ın resmi drafter’ları olduğundan MTP, bu aile için en doğal seçim.

Sonuç: Inference Optimizasyonu Standart Hale Geliyor

Multi-Token Prediction’ın Gemma 4 ekosistemine eklenmesi, açık kaynak LLM dünyasında inference optimizasyonunun bir lüks değil bir standart olduğunu gösteriyor. Önceden ayrı bir araştırma alanı olan speculative decoding, artık modellerle birlikte hazır olarak geliyor.

Pratik anlamı şu: Gemma 4 31B Dense gibi büyük bir modeli RTX 5090’da kullanan biri, hiçbir kalite kaybı olmadan inference süresini yarıya indirebiliyor. Apple Silicon kullanan biri için aynı durum geçerli. Edge cihazlarda ise token clustering sayesinde özel optimizasyon kazancı var.

Gemma 4’ün yayımlanmasından itibaren birkaç hafta içinde 60 milyondan fazla indirilen bir model ailesinin, bir de inference hız iyileştirmesiyle gelmesi, Google’ın açık kaynak AI ekosistemindeki konumunu sağlamlaştırıyor. Önümüzdeki dönemde benzer drafter+target paketlemesinin diğer modellerde de standart hale gelmesi muhtemel.

MTP’yi denemek isteyenler için: en kolay yol, Hugging Face’ten Gemma 4 + ilgili MTP drafter’ı çekip vLLM veya Ollama gibi destekli bir engine üzerinden çalıştırmak. Detaylı dokümantasyon ai.google.dev/gemma/docs/mtp/overview adresinde.

Kaynak: Google Blog – Multi-Token Prediction in Gemma 4 | Gemma MTP Documentation

Comments

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir