StepFun'dan Step 3.7 Flash: Apache 2.0 Lisanslı 198B MoE Agent Modeli, τ²-bench'te %98+ Skor

Shanghai merkezli StepFun, Apache 2.0 lisansıyla açık ağırlıklı yeni modeli Step 3.7 Flash’ı duyurdu. Şirketin tagline’ı net: “Yeni cephe agent verimliliği”. Şubat 2026’da yayınlanan Step 3.5 Flash’ın ardılı olan bu model, kod yazma, web arama, görsel anlama ve çok adımlı araç çağırma görevlerinde sınıfının üst sıralarına oturuyor.

StepFun kim, neden önemli?

StepFun (resmi adıyla Shanghai Jieyue Xingchen Intelligent Technology), Nisan 2023’te kurulan ve Çin’in “AI Tigers” (yapay zeka kaplanları) olarak adlandırılan grup içindeki en hızlı yükselen şirketlerden biri. Ocak 2026’da kapattığı 5 milyar yuan’ı (yaklaşık 717 milyon dolar) aşan B+ tur yatırım, Zhipu AI ve MiniMax gibi yeni halka açılan rakiplerinin IPO gelirlerini geride bıraktı. Şubat 2026’da Hong Kong borsasında halka arz için başvuru yaptığı raporlandı.

Step model ailesi çoklu modal yetenekleriyle (metin, görsel, video, ses) tanınıyor. Honor, Oppo, ZTE gibi telefon üreticileriyle entegrasyon ortaklıkları kuran StepFun, agent ve cihaz üzerinde çalışan AI senaryolarına özellikle yatırım yapıyor. Step 3 (Temmuz 2025), Step 3.5 Flash (Şubat 2026) ve şimdi Step 3.7 Flash bu hattın son halkaları.

Step 3.7 Flash: ana özellikler

StepFun’ın tanıttığı teknik tablo şöyle:

Mimari: 198B parametreli sparse Mixture-of-Experts, yaklaşık 11B aktif parametre her token başına.
Context penceresi: 256.000 token.
3 reasoning seviyesi: Görevin karmaşıklığına göre düşünce derinliğini ayarlama opsiyonu.
Hız: 400 token/saniye. Step 3.5 Flash’ın 100-300 TPS aralığına göre belirgin bir sıçrama.
Lisans: Apache 2.0, açık ağırlıklı.
Yerel donanım: Mac Studio M4 Max, NVIDIA DGX Spark veya AMD Ryzen AI Max+ 395’te çalıştırılabiliyor.

11B aktif parametre rakamı kritik: bellekte 198 milyar parametre tutmak için yeterli VRAM gerekiyor (kabaca 200 GB’ı aşan bir model), ama her token üretiminde sadece 11 milyar parametre hesaplandığı için inference hızı çok daha küçük dense modellere yaklaşıyor. Mac Studio M4 Max’te — uygun quantization ile — çalıştırılabilmesinin sebebi de bu MoE yapısı.

Benchmark’lar: agent görevlerinde üst sıralar

Step 3.7 Flash’ın paylaşılan sonuçları çoğunlukla agentic/tool calling cephesinde:

ClawEval-1.1: 67,1 (1. sıra) — Açık ağırlıklı modeller arasında agent framework değerlendirmesinde lider konumda.
SimpleVQA Search: 79,2 (1. sıra) — Görsel soru yanıtlama + arama entegrasyonunda lider.
SWE-PRO: 56,3 (2. sıra) — Kurumsal düzeyde yazılım mühendisliği görevlerinde ikinci. SWE-Bench Pro’da 1.865 problem, 41 aktif Github reposundan gerçek kurumsal senaryolarla derlenmiş; profesyonel bir mühendisin saatler-günler harcayabileceği uzun horizon görevler. 56,3 burası için yüksek bir skor.
V* Python: 95,3 — Görsel referansla Python kod üretimi.
τ²-bench: tüm zorluk seviyelerinde %98+ — Bu Sierra ekibinin geliştirdiği, sadece “görevi tamamla” değil aynı zamanda “belirtilen politikaya uy” ölçen agent değerlendirmesi. Doğru uçuşu rezerve eden ama değişiklik ücreti politikasını ihlal eden agent burada kaybeder. Kurumsal deployment’ın gerçek ihtiyacına en yakın benchmark sayılıyor.

τ²-bench’te %98+ skor özellikle dikkat çekici. Çoğu agent modelin gerçek dünya kurumsal kullanımındaki en zayıf noktası “tool drift” yani aynı görev döngüsünde aracı yanlış parametrelerle çağırma veya hiç çağırmama. StepFun, bu istikrar sorununu büyük ölçüde çözdüğünü iddia ediyor.

Multimodal anlama + harekete geçme

Step 3.7 Flash’ın pazarlandığı asıl iddia teknik benchmark’lardan çok pratik agent senaryosu: “görüyor, kod yazıyor ve hareket ediyor.”

Yani bir kullanıcı arayüzü ekran görüntüsünü, bir grafiği, bir PDF’yi veya bir görseli modele gösterdiğinizde, onu sadece açıklamıyor; o veriden hareketle kod yazıyor ya da uygun aracı çağırıyor. Bu, geleneksel multimodal LLM’lerin “açıklama” tarafında durduğu yerden bir adım öteye gidiyor:

Bir UI ekran görüntüsü → otomasyon scripti veya tıklama dizisi üretmek.
Bir grafik → veri tablosunu çıkarmak ve görselleştirme kodu yazmak.
Bir doküman taraması → ilgili bilgiyi çıkarıp veritabanına işlemek.
Bir web sayfası ekranı → ek araştırma için web search aracını tetiklemek.

StepFun, modelin web + görsel arama yeteneğinin “daha çok kaynak, daha derin takip” yapabildiğini vurguluyor. Yani tek bir Google sonucuyla yetinmek yerine bağımsız follow-up sorgularıyla bağlamı genişletebiliyor.

Ekosistem uyumluluğu: agent araçlarıyla doğrudan çalışır

Step 3.7 Flash’ı diğer açık ağırlıklı modellerden ayıran bir nokta da entegrasyon listesi. Model şu agent çerçeveleri ve protokollerle doğrudan çalışıyor:

Claude Code: Anthropic’in terminal tabanlı kodlama agent’ı.
KiloCode: Açık kaynak VS Code agent uzantısı.
Hermes Agent: Nous Research’ün agent çerçevesi.
OpenClaw: Açık kaynak agent SDK.
MCP (Model Context Protocol): Anthropic’in başlattığı, hızla standart haline gelen araç bağlantı protokolü.

Bu liste, modelin laboratuvar oyuncağı değil, gerçek geliştirici akışlarına entegre olacak şekilde tasarlandığını gösteriyor. Özellikle Claude Code üzerinden kullanımı, Sonnet veya Opus’a alternatif open weights bir backend isteyen geliştiriciler için kayda değer.

Yerel deployment seçenekleri

StepFun’ın resmi olarak desteklediği yerel donanım listesi:

Mac Studio M4 Max: 128 GB’a kadar birleşik bellek seçeneğiyle, quantize edilmiş 198B/11B MoE’yi çalıştırabilir.
NVIDIA DGX Spark: Kurumsal masaüstü AI iş istasyonu.
AMD Ryzen AI Max+ 395: AMD’nin AI’a optimize APU’su, 128 GB’a kadar birleşik bellek desteğiyle.

Bu donanımlar 5.000-15.000 dolar bandında, yani büyük modelleri yerelde çalıştırmak isteyen ciddi geliştiriciler için ulaşılabilir. Hızlı, gizli, abonelik gerektirmeyen agent deployment senaryosunun pratik karşılığı bu.

Apache 2.0: serbest kullanım anlamı

Step 3.7 Flash’ın belki en stratejik özelliği lisansı. Apache 2.0; gelir eşiği yok, kullanıcı sayısı sınırı yok, ticari kullanım için ekstra anlaşma gerekmez, fine-tune ettiğiniz türevi proprietary tutabilirsiniz. Bu yönüyle Liquid AI’ın LFM modelleri (10M dolar gelir eşiği), Meta Llama (700M aktif kullanıcı eşiği) veya eski Gemma lisanslarından (kullanım kısıtlamaları) belirgin biçimde özgür.

Geçen ay Google’ın Gemma 4’ü Apache 2.0’a geçişi, Qwen 3.5’in Apache 2.0’ı, OLMo 3’ün Apache 2.0’ı ile birlikte, açık ağırlık ekosistemi gerçekten permissive lisans yönüne kayıyor. Step 3.7 Flash bu trendin Çin tarafındaki en güçlü temsilcilerinden biri.

Bu modelin yeri ne?

2026 ortasında açık ağırlık yarışı şöyle görünüyor:

Saf reasoning ve matematik: Qwen 3.5/3.6 ve DeepSeek serisi hâlâ önde.
Klasik dense küçük modeller: Phi-4, SmolLM, Gemma 4’ün küçük varyantları.
On-device edge: Liquid LFM2.5, Apple Intelligence modelleri.
Agentic + multimodal + tool calling: Step 3.7 Flash burada konumlanmak istiyor, ve benchmark’lar bu iddiayı destekliyor.

StepFun’ın stratejisi net: GPT-4, Claude veya Gemini ile ham zekâ kıyaslamasına girmek yerine, agent ve araç kullanımı tarafında niş açık ağırlık kazanmak. Bu, hem Çin pazarındaki agent ürünleri hem de küresel geliştiricilerin Apache 2.0 isteyen ticari projeleri için anlamlı bir konum.

Sonraki adım

Step 3.7 Flash’ı denemek isteyenler için: Model Hugging Face üzerinden açık ağırlıklı şekilde indirilebilir durumda. Mac Studio veya AMD AI Max+ 395 gibi yüksek bellekli yerel donanımı olanlar quantize edilmiş versiyonlarla doğrudan deneyebilir; bulut tarafında ise OpenRouter, SiliconFlow ve NVIDIA NIM gibi platformlar üzerinden hızlıca test edilebilir.

Açık ağırlıklı modellerin agent verimliliğinde GPT-4 seviyesine ne kadar yaklaştığını görmek isteyenler için iyi bir ölçüm fırsatı. Özellikle τ²-bench’teki %98+ skoru, kurumsal agent deployment senaryolarında üretime hazırlık tartışmasını yeniden başlatacak gibi.