Açık ağırlık LLM yarışının en hızlı koşan kategorilerinden biri olan “agentic coding” tarafında haziran 2026 büyük bir sürpriz getirdi. Çin merkezli Nex AGI, yeni nesil agent modelini açık kaynak olarak yayınladı: Nex-N2-Pro. 397 milyar parametreli, 17 milyar aktif parametreli MoE mimarisi, Apache 2.0 lisansı ve GPT-5.5 ile Opus 4.7 ile yarışan benchmark sonuçlarıyla, gelmiş geçmiş en güçlü açık ağırlık agent modellerinden biri.
Daha çarpıcı olanı: Terminal-Bench 2.1’de Opus 4.7’yi açık ara, SWE-Bench Pro’da GPT-5.5’u kıl payı geçiyor. Üstelik şu anda OpenRouter üzerinden ücretsiz kullanılabiliyor.
“Agentic Thinking” ne anlama geliyor?
Nex AGI’ın modeline verdiği isim olan “Agentic Thinking”, son dönemde Vibe Coding ve Harness Engineering paradigm shift’leriyle birlikte gelen bir konsept. Klasik LLM’ler reasoning, tool use ve environment execution’ı üç ayrı yetenek olarak tutar — biri düşünür, biri araç çağırır, biri sonucu işler.
Nex-N2 ise bunları tek bir kapalı döngü içinde birleştiriyor: gereksinim anlama → task planlaması → kod uygulama → environment feedback → değerlendirme ve debug → continuous iteration. Yani model bir hedef okuyor, plan yapıyor, çalıştırıyor, ortamın verdiği geri bildirimi gözlemliyor, debug ediyor, tekrar deniyor — thread’i kaybetmeden.
Bu framework iki ana bileşenden oluşuyor:
Adaptive Thinking. Model ne zaman düşüneceğine, ne kadar derin düşüneceğine kendisi karar veriyor. Basit eylemleri hızlıca çalıştırır, kritik kararlar için detaylı reasoning yapar. Sonuç: %30-50 daha az boşa giden token, gerçekten önemli yerlerde daha derin değerlendirme.
Coherent Thinking. Model genel reasoning ile farklı agentic görevlerde aynı tutarlı reasoning paradigmasını kullanıyor. Web’de gezerken, kod yazarken veya terminal kullanırken aynı şekilde düşünüyor; yetenekler görevler arası temiz aktarılıyor.
Teknik temel: Qwen3.5-397B-A17B post-trained
Nex-N2-Pro sıfırdan eğitilmiş değil — Alibaba’nın Qwen3.5-397B-A17B base modelinin üzerine yapılan post-training’den geliyor. Bu yaklaşım, Mellum2’nin Qwen3.5-Base üzerine inşa edilmesi, LocateAnything-3B’nin Qwen2.5-3B-Instruct kullanması, StepFun’ın da Qwen ekosistemiyle entegre çalışmasıyla benzer.
Yani Qwen ekosistemi, açık ağırlık modeller dünyasında artık de facto temel platform haline geldi.
Modelin teknik özellikleri:
- Toplam parametre: 397 milyar.
- Aktif parametre (her token başına): 17 milyar.
- Mimari: Qwen3.5 MoE (qwen3_5_moe).
- Modalite: Image-text-to-text (multimodal).
- Lisans: Apache 2.0.
- Precision: BF16.
Ailenin ikinci üyesi Nex-N2-mini (Qwen3.5-35B-A3B-Base üzerine) henüz açık kaynak değil, ileride yayınlanacak.
Benchmark’lar: GPT-5.5 ve Opus 4.7 ile yarışıyor
Nex AGI modeli gerçek agentic workflow’larda test etti: agent görevleri, kod görevleri ve genel görevler. İşte öne çıkan rakamlar:
Terminal execution sınıfının lideri: Terminal-Bench 2.1’de 75,3 — Opus 4.7’nin 69,7, DeepSeek-V4-Pro’nun 72,0 ve GLM-5.1’in 58,7’sinin önünde. Bu skor terminal komutlarını doğru yapma, hataları yakalama ve düzeltme cephesinde modeli üst sınıfa koyuyor.
Frontier yazılım mühendisliği:
- SWE-Bench Pro: 58,8 (GPT-5.5’in 58,6’sını kıl payı geçiyor).
- SWE-Bench Verified: 80,8 (en güçlü açık modellerle yan yana).
- DeepSWE: 33,6 (Kimi-K2.6 24, GLM-5.1 18, DeepSeek-V4-Pro 8 ile karşılaştır).
Deep research ve browsing: BrowseComp’ta 83,7. Opus 4.7’nin 79,8’ini geçiyor; GPT-5.5’in 84,4’ü ve DeepSeek-V4-Pro’nun 83,4’ü ile boyun boyuna.
Long-horizon verimlilik: GDPval’de 1585. Tek atışlık cevap değil, çok adımlı gerçek dünya ekonomik görevleri sürdürebilme cephesi.
Yeni benchmark’lara genelleme: SWE Atlas TW’de 40,0 — Opus 4.7’nin 38,2 ve MiniMax M3’ün 30,8’ini geride bırakıyor. Bu, modelin sadece klasik test setlerinde değil, yeni ve daha zor benchmark’larda da güçlü olduğunu gösteriyor.
Genel reasoning: GPQA Diamond 90,7, IFEval 94,0. Frontier modellerle rekabet edebilir seviyede.
Aşağıdaki kategorilerde rakamlar:
| Benchmark | Nex-N2-Pro | GPT-5.5 | Opus 4.7 | DeepSeek-V4-Pro |
|---|---|---|---|---|
| BrowseComp | 83.7 | 84.4 | 79.8 | 83.4 |
| SWE-Bench Pro | 58.8 | 58.6 | 64.3 | 55.4 |
| Terminal-Bench 2.1 | 75.3 | 83.4 | 69.7 | 72.0 |
| GPQA Diamond | 90.7 | 93.6 | 94.2 | 90.1 |
| IFEval | 94.0 | – | – | 91.9 |
| GDPval (long-horizon) | 1585 | 1769 | 1753 | 1554 |
Gerçek dünya senaryolarında kullanım
Nex AGI’ın hedef kullanım alanları:
One-person-company workflow’ları (OpenClaw). Yüksek seviye bir hedefi planlama, uygulama ve çoklu araç iterasyonuna ayrıştırma. Solo bir operatörün el ile yapacağı tüm küçük kararları otomatize etme.
End-to-end oyun geliştirme. Bir spec’ten oynanabilir bir build’e kadar. Long-horizon kodlamada implement-run-debug döngüsünü sürdürüyor.
Deep research ve web görevleri. Multi-hop araştırma, kaynakları cross-check etme, bulguları sentezleme. Tek bir lookup değil.
Web ve multimodal üretim. Bir tariften strukturlu, çalışan bir artifact üretme — daha geniş bir agentic pipeline’ın parçası olarak.
Şirketin örnek prompt’u dikkat çekici: “Newbery Madalyası kazanan çocuk kitaplarını öneren bir iOS uygulaması için, gerçekten tıklanabilir 3 ana ekranlı bir prototip tasarla.” Model bu komuta tüm pipeline’ı kendisi tamamlıyor.
Ekosistem uyumluluğu: hangi araçlarla çalışır?
Nex-N2-Pro, mevcut açık geliştirici ekosisteminin neredeyse tamamıyla entegre — bu modelin pratik değerini katlıyor.
Coding agent’lar: Cline, Gen-CLI, Kilo Code, Roo Code, Claude Code — hepsi destekli.
Agent çerçeveleri: OpenClaw, Hermes Agent, Dify, ChatHub, Chatbox, Sider, Janitor AI, Chub AI.
Self-hosting: SGLang ve vLLM ile native serving. Recommended sampling: temperature 0.7, top_p 0.95, top_k 40. Function calling için --tool-call-parser qwen3_coder, reasoning trace ayırma için --reasoning-parser qwen3.
Hosted API:
- SiliconFlow: İlk 2 hafta ücretsiz, OpenAI-uyumlu API.
- OpenRouter: Şu anda tamamen ücretsiz nex-agi/nex-n2-pro:free endpoint’i ile.
- Hugging Face / ModelScope: Ağırlık indirme.
Yani modeli denemenin en hızlı yolu OpenRouter üzerinden “free” tier ile API çağrısı yapmak — iki dakikada bir Claude Code session’ı, Cline integration veya custom agent setup’ı çalıştırılabilir.
Donanım gereksinimi: ciddi
397 milyar parametreli MoE modeli, BF16’da yaklaşık 800 GB VRAM gerektirir. 4-bit quantize edilse bile 200 GB civarı. Yani kişisel yerel kurulum için pratik değil; multi-GPU sunucu veya cloud GPU servisleri şart.
17B aktif parametre olduğu için inference hızı 100B’lik dense modele göre çok daha iyi — ama yine de pratik kullanım için 4-8x H100 / H200 kümesi düşünmek gerekiyor.
Bu, modelin neden hosted API üzerinden kullanmaya en uygun olduğunu açıklıyor. SiliconFlow ve OpenRouter, geliştiricilerin altyapı yatırımı yapmadan denemesini sağlıyor.
Önemi: açık ağırlık agent modelleri Opus seviyesine çıktı
2025 başında açık ağırlık modeller GPT-4 seviyesinin gerisindeydi. 2026 yılı ortasında Qwen3.5, DeepSeek-V4-Pro, Kimi-K2.6, GLM-5.1, MiniMax M3 ve şimdi Nex-N2-Pro ile birlikte açık ağırlık ekosistemi GPT-5.5 ve Claude Opus 4.7 ile aynı kümede. Üstelik Apache 2.0 lisansıyla ticari kullanım için hiçbir engel olmadan.
Nex-N2-Pro’nun spesifik vurgusu agent ve coding olduğu için, terminal otomasyonu, yazılım geliştirme assist’i, deep research ve multi-step workflow’ları için Claude Code veya Cursor alternatifi arayanlar için bu model bugünden itibaren ciddi bir seçenek.
OpenClaw, KiloCode, Cline gibi açık kaynak agent çerçeveleri Nex-N2-Pro ile çalıştığında, “kendi GitHub Copilot benzeri sistemini kur” senaryosu artık tamamen şirket bağımsız bir altyapıyla mümkün.
Sonuç: hemen denenmesi gereken bir model
Nex-N2-Pro, açık ağırlık LLM dünyasında 2026’nın bugüne kadarki en önemli sürümlerinden biri. Qwen3.5-397B üzerine post-trained, Agentic Thinking framework’ü ile, terminal kullanma, yazılım mühendisliği ve deep research alanlarında GPT-5.5 ve Opus 4.7 ile yarışan rakamlar veriyor. Apache 2.0 lisansı, geniş ekosistem desteği ve OpenRouter’da ücretsiz API ile geliştiricilerin hemen denemesini mümkün kılıyor.
Şu adımları izleyerek 5 dakika içinde test edilebilir:
- OpenRouter’da ücretsiz endpoint’e kaydolup API key alın.
- Claude Code, Cline veya Cursor’ı OpenAI-uyumlu API olarak Nex-N2-Pro’ya yönlendirin.
- Bir kodlama veya araştırma task’ı verip Adaptive Thinking’in nasıl çalıştığını izleyin.
Açık ağırlık agent modelleri için altın çağ devam ediyor.

Bir yanıt yazın