Qwen3.6 27B Açık Ağırlıklı Liderliği Aldı: 150B Altı En Zeki Model, Ama Gemma 4’ten 21 Kat Pahalı

Açık ağırlıklı modeller (open weights) yarışında yeni bir dönem başladı. Alibaba, Qwen ailesinin yeni neslini iki modelle birden duyurdu: Qwen3.6 27B (Dense) ve Qwen3.6 35B A3B (MoE). Artificial Analysis’in bağımsız değerlendirmelerine göre Qwen3.6 27B, 150B parametre altındaki en zeki açık ağırlıklı model olarak Intelligence Index’te 46 puanla zirveye yerleşti. Ancak bu liderlik bedava değil: aynı puanı yakalamak için Gemma 4 31B’ye göre yaklaşık 3,7 kat daha fazla output token ve 21 kat daha pahalı çalıştırma maliyeti gerekiyor.

Qwen3.6 Ailesi: İki Model, İki Mimari

Alibaba bu nesilde iki açık ağırlıklı model yayımladı:

  • Qwen3.6 27B (Dense) — 27 milyar parametre, klasik dense mimari, Intelligence Index 46
  • Qwen3.6 35B A3B (MoE) — 36 milyar toplam, forward pass başına yalnızca 3 milyar aktif parametre, Intelligence Index 43

Her iki model de Apache 2.0 lisansıyla yayımlandı, 262K bağlam penceresi destekliyor, native multimodal giriş (metin + görsel) içeriyor ve birleşik thinking/non-thinking hibrit mimari kullanıyor.

Önemli bir not: Qwen3.5’te olduğu gibi büyük modeller bu kez açık ağırlıklı olarak gelmedi. Qwen3.6 Plus ve Qwen3.6 Max Preview proprietary olarak kalıyor; yani Qwen3.6’nın açık ağırlıklı ailesi tamamen 50B altı modellerden oluşuyor.

Açık Ağırlıklı Modeller Liderliği

150B toplam parametre altındaki açık ağırlıklı modellerde tablo şöyle (Intelligence Index v4.0):

Model Intelligence Index Parametre
Qwen3.6 27B 46 27B Dense
Qwen3.6 35B A3B 43 36B Total / 3B Active (MoE)
Qwen3.5 27B 42 27B Dense
Qwen3.5 122B A10B 42 122B / 10B (MoE)
Gemma 4 31B 39 31B Dense
Qwen3.5 35B A3B 37 36B / 3B (MoE)
NVIDIA Nemotron 3 Super 36 120B / 12B
gpt-oss-120b (high) 33 120B

Qwen3.6 27B sadece kendi sınıfını değil, çok daha büyük modelleri de geçiyor: NVIDIA Nemotron 3 Super 120B (36), Qwen3.5 122B A10B (42) ve gpt-oss-120b (33) bu modelin gerisinde kalıyor.

Donanım Profili

27B model, native BF16 hassasiyetinde yaklaşık 56 GB bellek kapladığından tek bir H100 GPU’ya sığıyor. 4-bit kuantizasyonda ise sadece 16 GB+ RAM’i olan tüketici donanımında bile çalıştırılabiliyor. Bu, modelin lokal kurulumlar için ne kadar erişilebilir olduğunu gösteriyor.

3B Aktif Parametreli Liderlik

Qwen3.6 35B A3B ise yaklaşık 3B aktif parametreyle çalışan modeller arasında lider konumda. Karşılaştırma:

  • Qwen3.6 35B A3B: 43 puan
  • Qwen3.5 35B A3B: 37 (6 puan farkla geride)
  • GLM-4.7-Flash: 30 (13 puan farkla geride)
  • Gemma 4 26B A4B: 31
  • Qwen3 Coder Next (80B total): 28
  • NVIDIA Nemotron Cascade 2 30B A3B: 28

Yani aynı aktif parametre sınıfında Qwen3.6 35B A3B, ciddi bir önceki kuşak farkı yaratıyor.

Halüsinasyon Düşüşü: Asıl Kazanç Burada

AA-Omniscience benchmark’ında dikkat çekici bir bulgu var: zeka artışı tamamen halüsinasyondaki düşüşten geliyor; doğruluk oranı aslında neredeyse aynı kalmış.

  • Qwen3.6 27B’nin halüsinasyon oranı yüzde 80’den yüzde 48’e düştü (Qwen3.5 27B’ye göre)
  • Qwen3.6 35B A3B’nin halüsinasyon oranı yüzde 84’ten yüzde 50’ye indi
  • Her iki durumda da accuracy yaklaşık aynı seviyede kaldı

Artificial Analysis’in bulgusuna göre AA-Omniscience accuracy genelde toplam parametre sayısıyla korelasyon gösterdiği için, parametre sayısı değişmediği halde Qwen3.6’nın bilmediği şeyleri “uydurmak” yerine “bilmediğini söyleme” eğilimi çok artmış. Bu, üretim ortamında kullanım için kritik bir iyileşme.

Token Kullanımı: Kazanç Pahalıya Patlıyor

Qwen3.6’nın zeka artışının bir bedeli var: token tüketimi ciddi şekilde artmış.

  • Qwen3.6 27B: Intelligence Index’i çalıştırmak için ~144M output tokenı kullandı (Qwen3.5 27B’nin 1,5 katı, Gemma 4 31B’nin 3,7 katı)
  • Qwen3.6 35B A3B: ~143M token (Qwen3.5 35B A3B’nin 1,4 katı, Gemma 4 31B’nin 3,7 katı)

Fiyatlandırma: 27B Pahalandı, 35B A3B Aynı Kaldı

Alibaba Cloud üzerinden milyon token başına fiyatlar:

Model Input ($/1M) Output ($/1M) Önceki Sürüm
Qwen3.6 27B $0,60 $3,60 $0,30 / $2,40 (Qwen3.5 27B)
Qwen3.6 35B A3B (Reasoning) $0,248 $1,485 $0,25 / $2,00 (Qwen3.5 35B A3B)

27B modelin fiyatı yaklaşık 2 katına çıkmışken, 35B A3B neredeyse aynı kaldı. Intelligence Index’i çalıştırmanın toplam maliyeti:

  • Qwen3.6 27B: ~$659 (Qwen3.5 27B’nin 2,2 katı, Gemma 4 31B’nin 21 katı)
  • Qwen3.6 35B A3B: ~$280 (Qwen3.5 35B A3B ile yaklaşık eşit, Gemma 4 31B’nin 9 katı)
  • Gemma 4 31B: ~$31 (medyan üçüncü taraf fiyatlandırma $0,14/$0,40)

GDPval-AA: Gerçek Dünya Görevlerinde Performans

Artificial Analysis’in Stirrup adlı açık kaynak harness’ı üzerinden web ve shell erişimiyle ölçülen GDPval-AA agentic benchmark’ında Qwen3.6 27B oldukça parlak bir tablo çiziyor. 1414 Elo puanıyla:

  • Qwen3.6 35B A3B (1297) — önde
  • Qwen3.5 27B (1157) — 257 Elo gibi muazzam bir farkla önde
  • Gemma 4 31B (1115) — açıkça önde
  • DeepSeek V4 Flash (Reasoning, High Effort, 1414, 284B parametre) — eşit
  • Muse Spark (Meta, 1421) — neredeyse eşit
  • GPT-5.4 mini (xhigh, 1436) — neredeyse eşit

Yani 27B parametreli bir model, 284B parametreli DeepSeek V4 Flash ile aynı agentic performansı veriyor. Bu, küçük ama zeki modellerin gerçek dünya görevlerinde nasıl etkili olabileceğinin somut bir kanıtı.

Ancak en üst sıradaki açık ağırlıklı liderlerin gerisinde duruyor: DeepSeek V4 Pro (Reasoning, Max Effort, 1554) ve GLM-5.1 (Reasoning, 1535) hâlâ önde.

Non-Reasoning Modunda Değişiklik Yok

Önemli bir bulgu: Qwen3.6’nın iyileşmeleri tamamen reasoning modunda yoğunlaşmış. Non-reasoning modunda durum şöyle:

  • Qwen3.6 27B (Non-reasoning): 37 ↔ Qwen3.5 27B (Non-reasoning): 37 (eşit)
  • Qwen3.6 35B A3B (Non-reasoning): 32 ↔ Qwen3.5 35B A3B (Non-reasoning): 31 (eşit)

Yani thinking/reasoning modunu kullanmıyorsanız Qwen3.5’ten Qwen3.6’ya geçmenin pek bir anlamı yok.

Diğer Teknik Detaylar

  • Bağlam penceresi: 262K token (Qwen3.5 ile aynı)
  • Lisans: Apache 2.0
  • Multimodal: Native vision input (metin + görsel), çıktı yalnızca metin
  • API erişimi: Alibaba Cloud üzerinden

Sonuç

Qwen3.6 ailesi açık ağırlıklı modeller dünyasında önemli bir adım. Qwen3.6 27B, 150B altındaki en zeki açık model konumuna oturdu ve kendinden çok daha büyük modelleri geride bıraktı. 35B A3B ise 3B aktif parametreli modeller arasında açık ara önde.

Ancak madalyonun diğer yüzü maliyet. Token kullanımındaki ciddi artış ve 27B’deki fiyat zammı, “gerçekten ne kadar zekaya ihtiyacım var?” sorusunu öne çıkarıyor. Daha mütevazı bir görev için Gemma 4 31B’nin 21 kat daha ucuza yeterli olduğu durumlar muhtemelen yaygın.

Pratik tavsiye:

  • En iyi açık ağırlıklı zeka: Qwen3.6 27B
  • En verimli MoE: Qwen3.6 35B A3B (3B aktif, geniş bellek erişimi)
  • En iyi maliyet/performans: Gemma 4 31B (basit görevler için yeterli)
  • En iyi büyük açık model: DeepSeek V4 Pro / GLM-5.1 (kompleks reasoning için)

Kaynak: Artificial Analysis | Alibaba Qwen Twitter

Comments

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir