DeepSeek'ten DeepSpec ve DSpark: V4 Modellerinde %80'e Varan Hız Artışı, Açık Kaynak Speculative Decoding Altyapısı Geliyor

Açık ağırlık AI ekosisteminin Haziran 2026 boyunca sürdürdüğü yoğun release temposuna bir yeni halka eklendi. DeepSeek, semi-paralel speculative decoding yöntemi olan DSpark’ı ve bunun arkasındaki tam altyapıyı (training, evaluation, deployment) içeren DeepSpec kod tabanını MIT lisansla GitHub’da yayınladı.

Önemli rakamlar:

DeepSeek-V4-Flash ve V4-Pro için inference hızında %51-400 aralığında artış (görev tipine göre).
Production deployment’ta %50 daha fazla request ve %80 daha hızlı yanıt süresi.
Qwen3 modellerinde (4B, 8B, 14B) önceki state-of-the-art Eagle3’e göre %26.7-30.9 daha uzun acceptance length, DFlash’a göre %16.3-18.4 daha uzun.

Bu yazıda speculative decoding’in ne olduğunu kısaca anlatıp DSpark’ın yeniliklerini, DeepSpec kod tabanının kapsamını ve açık ağırlık ekosistemi için ne anlama geldiğini inceleyeceğiz.

Speculative decoding nedir?

Klasik LLM inference’ı autoregressive: model bir token üretiyor, bu token’ı input’a ekliyor, sonraki token’ı üretiyor. Tek bir cevap için tüm modelin tüm parametrelerini yüzlerce, binlerce kez forward pass’te çalıştırmak gerekiyor. Bu seri yapı GPU’ları sırasıyla bekletiyor — bellek bant genişliği darboğaza dönüşüyor, compute büyük ölçüde boşa.

Speculative decoding bunu kıran bir teknik. Üç adımlı:

Küçük bir “draft model” (taslakçı model) hızlıca birkaç token’lık bir aday dizi üretir.
Hedef model (target model, asıl büyük model) bu aday diziyi tek bir paralel forward pass’te doğrular.
Doğru kabul edilen token’lar hemen cevaba eklenir; ilk reddedilen token’dan itibaren süreç tekrar başlar.

Kalite tamamen korunur (target modelin aynı çıktısı garanti edilir), ama hız 2-5 kat artar. Modern LLM serving altyapısının (vLLM, SGLang, TensorRT-LLM) standart bir tekniği.

Speculative decoding’in başarısını belirleyen ana metrik acceptance length: draft modelin önerdiği kaç token’ın target tarafından kabul edilmesi. Acceptance length 1 ise teknik fayda etmiyor (sıralı autoregressive’e döndük), 5 ise ortalama 5x daha hızlı.

DSpark’ın yaklaşımı: DFlash + Eagle hibridi

Önceki nesil speculative decoding metodlarının iki ana ailesi vardı:

Eagle ailesi (Eagle, Eagle2, Eagle3): Küçük sequential bir draft model, target modelin hidden state’lerinden faydalanarak token tahmin ediyor. Autoregressive yapısıyla acceptance length yüksek ama draft model maliyetini sıralı çalıştırma zorunluluğu var.
DFlash (Z Lab tarafından geliştirilen block diffusion yaklaşımı): Token bloklarını paralel olarak üretiyor. Daha hızlı ama acceptance length daha düşük olabiliyor.

DSpark bu ikisinin güçlü yanlarını birleştiriyor: ağır bir paralel kafa (heavy parallel head) + küçük bir sequential Markov kafa. Paralel kafa hızlıca birden çok aday üretirken, Markov kafa bu adayların tutarlılığını ve bağlamsal uygunluğunu iyileştiriyor.

Bu “semi-parallel” (yarı-paralel) tasarım, hem DFlash’ın paralelizm avantajını koruyor hem de Eagle’ın acceptance length kalitesini yakalıyor. Sonuçlar tabloda:

Target Model	DSpark vs Eagle3 (acceptance length artışı)	DSpark vs DFlash
Qwen3-4B	+%26.7	+%16.3
Qwen3-8B	+%28.5	+%17.1
Qwen3-14B	+%30.9	+%18.4

Production etkisi: %50 daha fazla request, %80 daha hızlı

Benchmark’lar ilginç ama pratik mesele şu: gerçek bir API serving senaryosunda ne değişiyor? DeepSeek’in production verisi:

Aynı donanımda %50 daha fazla request işlenebiliyor. Yani bir API sağlayıcı, aynı H100/H200 kümesiyle daha çok kullanıcıya hizmet verebilir — ya da aynı sayıdaki kullanıcıya daha düşük gecikme verebilir.
%80 daha hızlı yanıt süresi. End-to-end latency, ilk token’a kadar geçen süre (TTFT) değil, tüm cevabın üretilmesi.
Görev tipine göre değişen kazançlar: kod üretimi ve matematik akıl yürütmesi gibi yapısal görevlerde acceptance length yüksek olduğu için %400’e varan hız artışı; günlük diyalog gibi açık-uçlu görevlerde %51 civarı.

Bu rakamların ekonomik anlamı büyük. Bir AI hizmet sağlayıcı için %50 daha fazla kapasite, donanım maliyetlerini doğrudan %33 düşürmek demek (yaklaşık). DeepSeek’in zaten ucuz olan API fiyatlarının (GLM-5.2, GPT-5.5’e göre 1/6) daha da düşürülebileceği sinyali bu.

DeepSpec: sadece DSpark değil, tüm metodoloji açıldı

Belki DSpark’ın kendisinden daha önemli olan kısım: DeepSpec kod tabanı. Bu, sadece nihai bir model değil; speculative decoding draft modelleri eğitmek ve değerlendirmek için tam pipeline.

DeepSpec’in içeriği:

Üç draft model implementasyonu: DSpark, DFlash ve Eagle3. Yani sadece yeni metod değil, baseline’lar da aynı kod tabanında.
Veri hazırlama scriptleri: Draft model eğitimi için verinin nasıl distillation’la hazırlanacağı.
Eğitim kodu: Üç metod için de.
Değerlendirme suite’i: GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca, Arena-Hard-v2. Yani matematik akıl yürütme, kod üretimi, diyalog ve genel soru-cevap kategorilerinin hepsi.
Target model desteği: Sadece DeepSeek-V4 değil; Qwen3, Gemma serileri için de hazır draft model eğitimi konfigürasyonları.

Lisans MIT. Yani başka açık ağırlık model üreticileri (Z.ai, Alibaba, Cohere, Liquid AI, vb.) kendi modelleri için DSpark draft modelleri eğitebilir. Ekosistem geneli için bu, “hızlı serving”in democratization’ı.

Pratik kullanım: V4 checkpoint’ler güncellendi

DeepSeek-V4-Pro ve V4-Flash modelleri sıfırdan eğitilmedi. Aynı checkpoint’in yanına bir DSpark modülü eklenmiş hali yayında:

deepseek-ai/DeepSeek-V4-Pro-DSpark — flagship.
deepseek-ai/DeepSeek-V4-Flash (DSpark dahili).

vLLM, SGLang ve TensorRT-LLM ile native serving uyumlu. Tipik konfigürasyon:

vllm serve deepseek-ai/DeepSeek-V4-Pro-DSpark \
    --speculative-config '{"method": "dspark", "model": "deepseek-ai/DeepSeek-V4-Pro-DSpark", "num_speculative_tokens": 7}' \
    --enable-prefix-caching

NVIDIA Developer Forums’ta DGX Spark / GB10 üzerinde DSpark deployment için ayrı bir thread açıldı — Blackwell mimarisinde DFlash’ın 15x hızlanmasına benzer kazanımlar bekleniyor.

Açık ağırlık ekosisteminde anlamı

DSpark + DeepSpec yayını, açık ağırlık AI ekosisteminin infrastructure katmanında hızla olgunlaştığını gösteriyor. Modeller (Qwen 3.6, GLM-5.2, Nex-N2-Pro, Ornith-1.0) zaten frontier seviyede; şimdi sıra serving optimizasyonunda.

Birkaç gözlem:

1. Speculative decoding artık standart. Önceden NVIDIA TensorRT-LLM’in proprietary özelliği olan optimizasyonlar, açık kaynak vLLM ve SGLang ile her geliştiriciye eşit erişilebilir hale geliyor.

2. Cross-vendor uyumluluk. DeepSpec’in Qwen3 ve Gemma desteği vermesi, “benim modelimi benim hızlandırırım” mantalitesinin dışına çıkış. Bu, Qwen3 servisi yapan bir Türk şirketi için DeepSeek’in altyapısını ücretsiz kullanabilme anlamına geliyor.

3. Production-grade odak. Acceptance length cinsinden %30 kazanım benchmark için ilginç olabilir; %50 daha fazla request kapasitesi production için para demek. DeepSeek bilinçli olarak ikincisini öne çıkardı.

4. Çin ekosisteminin altyapısallaşması. Önceki haftalarda Z.ai’ın IndexShare mimarisini, MiniMax’ın CISPO RL objective’ini, Tencent’in Hunyuan modellerini gördük. Şimdi DeepSeek’in speculative decoding altyapısı. Çin merkezli açık ağırlık ekosistemi, sadece modeller değil, modelleri çalıştıran araçların da kaynağına dönüşüyor.

Türk geliştiriciler için pratik etki

DeepSpec’in pratik anlamı:

1. Self-host serving maliyeti düşüyor. Bir Türk şirketi GLM-5.2 veya Qwen 3.6 self-host ediyorsa, DSpark draft modeli eğitip serving cost’unu yarıya indirebilir. Bu, kurumsal AI ekonomisi için ciddi fark.

2. Türkçe için fine-tune fırsatı. Türkçe için optimize edilmiş bir draft model eğitmek — tokenizer’ın Türkçe’de daha verimli olduğu (Bilge benzeri) bir setup’ta — standart İngilizce optimize draft modellerden daha yüksek acceptance length verebilir.

3. Türk AI girişimleri için altyapı kaldıracı. Sıfırdan model eğitemeyen ama açık ağırlık üzerine ürün kuran startup’lar (DataMind, AI Workplace, Robotcı gibi yerli oyuncular), DeepSpec ile serving maliyetlerini agresif şekilde optimize edip rekabet edebilir.

Sonuç

DSpark + DeepSpec, frontier model release’lerinin gölgesinde kalan ama belki daha somut etki yaratan bir release. Yeni bir model değil, mevcut modelleri 2-3 kat daha verimli çalıştırmanın açık kaynak bir yolu.

Açık ağırlık ekosisteminin önümüzdeki aşaması model performansından ziyade üretim hattı optimizasyonu olacak. DeepSpec bu cephede ilk büyük adımlardan biri. NVIDIA, vLLM, SGLang ekiplerinin de hızla entegrasyona girmesiyle Q3 2026 boyunca self-host serving ekonomisi belirgin biçimde iyileşecek.

Kod tabanı: github.com/deepseek-ai/DeepSpec. Model checkpoint’leri Hugging Face’te. Önümüzdeki haftalarda diğer açık ağırlık model üreticilerinin de kendi modelleri için DSpark draft’ları yayınlaması beklenebilir.