SubQ: 12 Milyon Token Bağlam, 50 Kata Kadar Hız ve İlk Tamamen Sub-Quadratic LLM

LLM dünyasında uzun süredir tartışılan ama çözülememiş bir problem var: uzun bağlam (long context) gerçekten kullanılabilir mi? Bir model “1 milyon token context destekliyorum” diye reklam yapabilir; ancak o 1 milyon token içindeki bilgiyi gerçekten reasoning’e dahil edebiliyor mu? Subquadratic (subq.ai) isimli yeni girişim, bu probleme cevap olarak iddialı bir model sunuyor: SubQ, “dünyanın ilk tamamen sub-quadratic LLM’i” olduğunu söylüyor. 12 milyon token bağlam, dense attention’a göre 50 kata kadar düşük maliyet ve bağımsız doğrulanmış benchmark sonuçlarıyla.

Sorun: Nominal vs Fonksiyonel Bağlam

Subquadratic’in raporunun açtığı en önemli ayrım şu: nominal context window (modelin işleyebildiği token sayısı) ve functional context window (modelin güvenilir şekilde reasoning yapabildiği token sayısı). Bu ikisi çoğu zaman aynı değil.

Örnek vermek gerekirse Gemini 3.1 Pro veya Claude Opus 4.7 gibi modeller “milyonlarca token” bağlam destekliyor. Ancak MRCR v2 (Multi-Round Coreference Resolution) gibi gerçek uzun bağlam testlerinde performansları çok düşebiliyor. Çünkü gerçek dünyadaki sorunlar tek bir token’ı bulmaktan ibaret değil — bilgi tüm bağlama dağılmış halde duruyor ve birden çok parçanın aynı anda akılda tutulması gerekiyor:

Bir kod tabanında bir fonksiyon bir modülde tanımlanmış, onlarca yerde çağrılıyor, başka bir yerdeki testlerle sınırlanıyor
Bir sözleşmede bir yükümlülük bir tanıma, bir istisnaya ve sayfalarca uzaktaki bir maddeye bağlı
Aylar süren bir kod görevinde önceki planlama kararları, ara düzeltmeler, review notları ve regression’lar hep matter

Bunlar lookup problemi değil; multi-hop reasoning over fragmented corpora (parçalanmış corpus üzerinden çok hop’lu akıl yürütme) problemi.

Dense Attention’ın Kuadratik Maliyeti

Geleneksel transformer’larda her token diğer her token’la karşılaştırılır. Bu, attention maliyetinin sequence uzunluğunun karesi (O(n²)) ile büyümesi anlamına geliyor. Bağlamı iki katına çıkardığınızda maliyet 4 katına çıkıyor.

Subquadratic’in raporu kritik bir noktayı vurguluyor: bu hesaplamanın çoğu zaten gerekli değil. Eğitilmiş modellerde attention ağırlıklarının büyük çoğunluğu sıfıra yakın. Yani model tüm karşılaştırmayı yapıyor ama bu karşılaştırmaların sadece küçük bir kısmı çıktıya anlamlı katkı sağlıyor. Dense attention sadece quadratic değil, “savurganca quadratic”.

FlashAttention bu hesaplamanın nasıl yürütüldüğünü optimize etti ama temel scaling’i değiştirmedi. Karşılaştırma sayısı aynı kalıyor; sadece daha verimli yapılıyor.

SSA: Subquadratic Sparse Attention

SubQ’nun arkasındaki mimari yenilik SSA (Subquadratic Sparse Attention). Ana fikri basit ama güçlü: content-dependent selection — içeriğe dayalı seçim.

Geleneksel attention “her şey önemli olabilir” varsayar ve hepsini değerlendirir. SSA bu varsayımı kaldırır. Attention’ı yaklaşık olarak hesaplamaz; sadece anlamlı sinyal taşıyan pozisyonlara restrict eder ve geri kalanını atlar.

Bu yaklaşım üç önemli özelliği bir arada sunuyor:

Lineer scaling: Attention maliyeti tüm sequence yerine seçilen pozisyon sayısıyla büyür
Content-dependent routing: Model nereye bakacağına pozisyon değil anlam üzerinden karar verir
Arbitrary position retrieval: Recurrent veya compressed yaklaşımların aksine, çok eskiden gelen spesifik bilgiyi de geri çağırabilir

Önceki Sparse Yaklaşımlardan Farkı

Subquadratic’in raporu, neden önceki “efficient attention” yaklaşımlarının başarısız olduğunu detaylı şekilde anlatıyor:

Sabit Pattern Sparse Attention (sliding window, strided pattern gibi): Tokeni nerelere bakacağını önceden, içeriğe bağlı olmadan kısıtlar. Model bakacağı yeri, neyi aradığını bilmeden seçer. İlgili bilgi pattern dışındaysa hiç görülmüyor.

State Space Models (Mamba vb.): All-pairs karşılaştırmayı tamamen kaldırır, sequence boyunca evrilen sıkıştırılmış bir state kullanır. Linear scaling sağlar ama state’in kapasitesi sabit. Sequence büyüdükçe bilgi özetlenir, bulanıklaşır veya atılır. Belirli bir gerçeği uzaktan geri çağırmak için zayıf.

Hybrid Mimariler: Verimli katmanlar + bazı dense attention katmanları. Pratikte işe yarar ama dense katmanlar load-bearing kalır ve bağlam büyüdükçe yine quadratic maliyet domine eder.

DeepSeek Sparse Attention (DSA): Indexer her query’yi her key’e karşı puanlıyor — yani indexer’ın kendisi quadratic. Karmaşıklık taşındı ama yok olmadı.

SSA, bu önceki yaklaşımların hepsinin yapamadığını yapmaya çalışıyor: verimli + içerik-bağımlı + arbitrary position’dan retrieve edebilen.

Performans Rakamları: 50 Kata Kadar Hız

SSA’nın wall-clock hız kazançları çarpıcı (B200 GPU’larında FlashAttention-2’ye göre):

Bağlam Uzunluğu	SSA Hız Artışı	Attention FLOP Azalması
128K token	7,2x	8x
256K token	13,2x	—
512K token	23,0x	—
1M token	52,2x	62,5x

Yani context büyüdükçe SSA’nın avantajı da büyüyor. Bu, üretim ortamı için kritik bir özellik: en değerli kullanım senaryolarının olduğu yerde (uzun bağlam) avantaj en yüksek.

Benchmark Sonuçları

SubQ 1M-Preview modeli, üç kritik benchmark’ta lider modellerle yarışıyor:

Benchmark	SubQ	Opus 4.7	Opus 4.6	Gemini 3.1 Pro	GPT-5.5
SWE-Bench Verified	81,8%	87,6%	80,8%	80,6%	n/r
RULER @128K	95,6%	n/r	94,8%	n/r	n/r
MRCR v2 (8-needle, 1M)	86,2%	32,2%	78,3%	26,3%	74,0%

Özellikle MRCR v2‘deki performans çarpıcı. SubQ 86,2 puanla Claude Opus 4.7 (32,2) ve Gemini 3.1 Pro’yu (26,3) çok geride bırakıyor. Bu, “nominal context vs functional context” tezini doğrulayan en somut veri: büyük transformer modeller uzun bağlamı kabul ediyor ama gerçek anlamda kullanamıyor.

SWE-Bench’te ise SubQ, Claude Opus 4.6 (80,8) ve Gemini 3.1 Pro (80,6) seviyesinde performans gösteriyor; Opus 4.7’nin (87,6) gerisinde kalıyor ama yine de frontier seviyesinde.

Üç Aşamalı Eğitim

Subquadratic ekibi mimari yenilik kadar eğitim sürecinin de önemli olduğunu vurguluyor. SubQ üç aşamalı eğitim sürecinden geçmiş:

Pre-training: Temel dil modeli yetenekleri ve selection mechanism’in kullandığı uzun bağlam temsilleri
Supervised fine-tuning: Instruction following, structured reasoning, kod üretim pattern’leri
Reinforcement learning: Uzun bağlam retrieval ve kod görevlerinde “yerel akıl yürütme” yerine “mevcut bağlamı agresif kullanma” davranışı

Son aşama özellikle önemli. Model çoğu zaman uzakta duran kritik kanıt yerine yakındaki (daha kolay) kanıtla cevap üretmeye yöneliyor. RL aşaması bu eğilimi düzeltmek için tasarlanmış.

İki Ürün: API ve Code

SubQ iki farklı ürün biçiminde sunuluyor:

SubQ API

Geliştiriciler ve kurumsal ekipler için OpenAI uyumlu endpoints. 12M token bağlam penceresi, streaming, tool use. Bir API çağrısında bütün repo’yu veya pipeline state’ini işleyebiliyor.

SubQ Code

Coding agent’lar için tasarlanmış uzun bağlam katmanı. Claude Code, Codex ve Cursor‘a tek satırlık kurulumla entegre oluyor. İddiaya göre yaklaşık %25 daha düşük fatura ve 10x daha hızlı codebase exploration. Mantığı şu: pahalı model turn’lerini otomatik olarak SubQ’ya yönlendiriyor; context-heavy sorgularda daha hızlı ve ucuz cevap alıyorsunuz, ana model (Claude veya GPT) reasoning ağırlıklı kısma odaklanıyor.

Maliyet: Dense Frontier Modellerin 1/5’i

Subquadratic’in iddiasına göre SubQ, frontier modellerin yaklaşık 5’te 1 maliyetiyle çalışıyor. Bu önemli çünkü uzun bağlam uygulamalarında ana maliyet kalemini de oluşturuyor. Bir kod tabanı analizini Claude Opus 4.7 ile yapmak yerine SubQ ile yapmak, hem hız hem maliyet avantajı sağlıyor.

Hız tarafında ise saniyede 150 token üretim hızı belirtilmiş — bu, uzun cevaplar için kullanılabilir bir hız.

12M Token: Ne Sığıyor?

SubQ’nun bağlam penceresinin ne kadar büyük olduğunu somutlaştırmak için Subquadratic’in verdiği örnekler:

~5,1M token: Tüm Python 3.13 standard library
~7,5M token: React kod tabanına son 6 ayda gelen yaklaşık 1.050 pull request
12M token: Yukarıdaki ikisinin toplamı + boşluk

Yani teorik olarak bütün bir geliştirme tarihçesini tek bir prompt’a sığdırabilirsiniz.

Şirket ve Ekip

Subquadratic, Meta, Google, Oxford, Cambridge ve BYU’dan araştırmacılar tarafından kurulmuş bir frontier AI araştırma ve altyapı şirketi. Şirketin teknik mesajı net: “Diğer büyük laboratuvarlar Transformer modellerinde incremental iyileştirmelere odaklanırken, biz mimari düzeyde foundational değişiklik yapıyoruz.”

14 Mayıs 2026’da LayerLens ile değerlendirme ortaklığı duyurusu yaptılar; Appen ise SSA kernel’ın benchmark sonuçlarını bağımsız olarak doğruladı.

Pratik Anlamı

SubQ’nun ortaya koyduğu yaklaşım, LLM ekosisteminde ilginç bir bölünmeye işaret ediyor:

Genel amaçlı modeller (GPT, Claude, Gemini) — geniş yetenek yelpazesi ama uzun bağlamda zayıf functional performans

Uzmanlaşmış mimari modeller (SubQ gibi) — belirli iş yükleri için optimize edilmiş, dar ama derin yetenekli

Özellikle aşağıdaki kullanım senaryolarında SubQ tarzı bir model genel amaçlı modellere göre çok daha avantajlı olabiliyor:

Tüm bir codebase üzerinde çalışan coding agent’lar
Uzun süreli ajan oturumları (memory + state)
Yasal sözleşmeler, araştırma makaleleri, regulasyon corpus’ları üzerinde çoklu-hop analiz
Kurumsal döküman tabanlarında doğru retrieval

Sonuç: Mimari İnnovasyonun Geri Dönüşü

Son birkaç yılda LLM rekabeti büyük ölçüde “daha fazla parametre, daha fazla veri, daha fazla compute” denkleminde yürüdü. Subquadratic ise farklı bir tez ortaya koyuyor: mimarinin kendisi henüz olgun değil ve burada hâlâ büyük kazanç var.

“Efficiency is intelligence” sloganı tam da bu felsefeyi yansıtıyor. Aynı bilgiyi 50 kat daha hızlı ve 5 kat daha ucuza çıkarabiliyorsanız, bu ham parametre sayısından çok daha önemli olabilir — özellikle production deployment için.

SubQ şu an private preview’da; ürünlerin erken erişimi için subq.ai üzerinden başvuru alıyorlar. Önümüzdeki aylarda model card’ları ve detaylı teknik rapor yayımlanacak. Eğer iddialar pratikte doğrulanırsa, uzun bağlam ekosisteminde — özellikle code intelligence için — kalıcı bir değişiklik yaşayabiliriz.

Kaynak: Subquadratic (subq.ai) | How SSA Makes Long Context Practical | Appen Third-Party Validation