vLLM 0.20 Yayımlandı: DeepSeek V4 Day-One Desteği, FlashAttention 4 ve TurboQuant 2-bit KV Cache

LLM inference dünyasının en popüler open-source motoru vLLM, 27 Nisan 2026’da v0.20.0 sürümünü yayımladı. 320 katkıda bulunan kişi (123’ü yeni) tarafından gönderilen 752 commit ile şirketin son aylardaki en kapsamlı sürümlerinden biri olan vLLM 0.20, hem altyapı stack’inde hem de model desteğinde önemli adımlar atıyor. En çarpıcı eklenti ise yeni çıkan DeepSeek V4 için ilk gün desteği.

Day-One DeepSeek V4 Desteği

DeepSeek V4 modelinin 24 Nisan’da yayımlanmasının üzerinden sadece üç gün geçmişken vLLM 0.20, modeli native olarak destekliyor. Sürümle birlikte token sızıntısı (token leakage) düzeltmeleri ve MTP IMA iyileştirmeleri de geldi. Bu, vLLM’in büyük açık ağırlıklı modeller için “first-class citizen” yaklaşımının somut bir örneği.

Stack Yenilemesi: CUDA 13, PyTorch 2.11, Python 3.14

vLLM 0.20, altta yatan teknoloji stack’inde de büyük bir sıçrama yapıyor:

CUDA 13.0 artık varsayılan (12.9 kullanmak için açık flag gerekiyor)
PyTorch 2.11‘e geçiş; XPU desteği de 2.10’dan 2.11’e yükseltildi
Python 3.14 desteklenen sürümler listesine eklendi
HuggingFace Transformers v5 ile tam uyumluluk

Bu güncellemeler özellikle kurumsal dağıtımlar için önemli; çünkü vLLM artık modern derin öğrenme stack’inin en yeni versiyonlarıyla doğrudan çalışıyor.

FlashAttention 4 Varsayılan Hale Geldi

Sürümün en dikkat çekici performans iyileştirmelerinden biri FlashAttention 4‘ün varsayılan MLA (Multi-head Latent Attention) prefill backend’i olarak yeniden etkinleştirilmesi. Head-dim 512 ve paged-KV desteğiyle, özellikle uzun bağlam sorgularında ciddi bir hız kazancı sağlıyor.

TurboQuant 2-bit KV Cache

vLLM 0.20’nin en yenilikçi özelliği TurboQuant 2-bit KV Cache backend’i. Bu yeni attention backend, KV cache’i 2-bit’e sıkıştırarak 4x kapasite artışı sağlıyor. Yani aynı GPU üzerinde 4 kat daha uzun bağlam veya 4 kat daha fazla eşzamanlı kullanıcı barındırılabiliyor. Bu, özellikle 1 milyon token bağlam destekleyen yeni modeller (DeepSeek V4 gibi) için kritik bir kazanım.

Yeni Model Mimarisi Desteği

Sürümle birlikte gelen yeni model destekleri arasında öne çıkanlar:

Hunyuan v3: Tencent’in reasoning yetenekleriyle donatılmış yeni multimodal modeli (preview)
Granite 4.1 Vision: IBM’in görsel yetenekli versiyonu
EXAONE-4.5: LG’nin Korece odaklı modeli
Phi-4-reasoning-vision-15B: Microsoft’un yeni reasoning modeli
Konuşma ve retrieval görevleri için özelleşmiş modeller

Speculative decoding tarafında ise EAGLE3 desteği birçok mimariye genişletildi; bu da farklı modellerle ciddi inference hız artışları elde etmeyi mümkün kılıyor.

Performans İyileştirmeleri

Sürümle gelen küçük ama kümülatif iyileştirmeler de var:

Fused RMS norm optimizasyonu sayesinde end-to-end latency’de yüzde 2,1 iyileşme
Sequence uzunlukları için GPU→CPU senkronizasyonunun önlenmesi
CUDAGraph bellek profillemesi varsayılan olarak etkin
FX-graph deserialization’ın atlanması ile daha hızlı warm compile

Kırıcı Değişiklikler (Breaking Changes)

Sürüm büyük bir adım attığı için bazı kırıcı değişiklikler de var. Mevcut kullanıcıların dikkat etmesi gereken noktalar:

CUDA wheel’ları için PyTorch 2.11 zorunlu
CUDA 13.0 varsayılan; eski CUDA için manuel flag gerekiyor
Eski/deprecated bazı öğeler kaldırıldı
Mimari destek listeleri sadeleştirildi

Sonuç: Inference Tarafı Da Hızlanıyor

vLLM 0.20, sadece bir versiyon güncellemesi değil; LLM serving altyapısının nereye gittiğini gösteren bir manifesto. DeepSeek V4 gibi 1 trilyon parametreli modellerin günlük üretim ortamlarına girmesiyle birlikte, inference engine’larından beklenen şey de değişiyor. TurboQuant 2-bit KV cache, EAGLE3 yaygınlaşması ve FlashAttention 4 gibi özellikler, “modeli sığdır ve hızla servis et” denkleminin yeni adımları.

Lokal AI çalıştıranlar için belki de en önemli mesaj şu: vLLM ile aynı GPU’da artık çok daha büyük modelleri, çok daha hızlı şekilde çalıştırabilirsiniz.

Kaynak: vLLM GitHub Releases