DeepReinforce'den Ornith-1.0: Kendi RL Scaffold'unu Öğrenen Açık Kaynak Coding Modeli Ailesi

Açık ağırlık agentic coding modellerinin Haziran 2026 yarışı devam ediyor. Bu ay GLM-5.2, Nex-N2-Pro ve Claude Fable 5’in ardından bir yeni isim daha sahneye çıktı: DeepReinforce, dört farklı boyutta agentic coding modeli ailesi Ornith-1.0’ı MIT lisansla Hugging Face’te yayınladı.

Ailenin asıl iddiası klasik “daha büyük model” değil. Bunun yerine modeller, kendi RL eğitim çerçevesini (scaffold) yazmayı öğreniyor. Yani DeepReinforce ekibinin yaklaşımı “modeli eğitmek için sabit bir harness yazıyoruz” yerine, “harness’ı da öğrettiğimiz şeyin bir parçası yapıyoruz” demek.

Ornith-1.0’ın boyut yelpazesi

Dört boyutta yayınlandı — her biri MIT lisansla, hepsi reasoning modelleri:

Ornith-1.0-9B Dense: Gemma 4 9B üzerine post-trained. BF16’da ~19 GB, tek bir 80 GB GPU’ya rahat sığıyor.
Ornith-1.0-31B Dense: Yine Gemma 4 tabanlı.
Ornith-1.0-35B MoE: Her token’da yaklaşık 3 milyar parametre aktif. Qwen 3.5 35B-A3B üzerine.
Ornith-1.0-397B MoE: Flagship. Qwen 3.5-397B-A17B üzerine post-trained.

Hepsi için FP8 ve GGUF quantize edilmiş versiyonlar da yayında. Bu, yerel olarak self-host etmek isteyenler için pratik bir kolaylık.

Reasoning ve tool calling

Modeller cevap üretmeden önce <think> bloğunda akıl yürütme yapıyor — klasik reasoning model şablonu. vLLM ve SGLang serving recipe’lerinde reasoning parser aktif, dolayısıyla bu trace ayrı bir reasoning_content alanında dönüyor.

Tool calling tarafında modeller native olarak agent loop’a uygun, well-formed tool çağrıları üretiyor. OpenAI-uyumlu endpoint açtığı için OpenHands, OpenClaw, OpenCode gibi standart agent çerçeveleri tek satır kod değişikliği gerektirmiyor.

Self-scaffolding: işin ilginç tarafı

Açık ağırlık coding modellerinin neredeyse tamamı şu şablonla eğitilir: insan eli ile yazılmış bir harness (model etrafında memory, tool kullanımı, hata yönetimi ve orkestrasyon mantığı saran katman) sabit tutulur, model bu harness içinde reinforcement learning ile eğitilir.

Ornith’in farkı: harness’ı da öğrenilen bir nesne olarak ele alıyor. Her RL adımı iki aşamadan oluşuyor:

Birinci aşama: Model görevi ve önceki scaffold’u okuyor. Daha iyi bir scaffold öneriyor.

İkinci aşama: Bu yeni scaffold’u ve görevi kullanarak bir solution rollout’u üretiyor. Rollout’tan gelen ödül her iki aşamaya da geri akıyor.

Yani model sadece doğru cevap üretmeyi değil, kendi orkestrasyonunu yazmayı da öğreniyor. Eğitim ilerledikçe yüksek ödül üreten scaffold’lar otomatik olarak mutate edilip seçiliyor. Her görev kategorisi için elle tasarlanmış harness’a ihtiyaç olmadan, görev-spesifik stratejiler organik şekilde ortaya çıkıyor.

DeepReinforce eğitimi async olarak çalıştırıyor, pipeline-RL setup’ı kullanıyor. Eski (off-policy) token’ları staleness weight ile aşağı çekiyor, belirli bir eşiği aştığında atıyor. Optimizasyon token seviyesinde bir GRPO objective ile yapılıyor.

Reward hacking’e karşı üç katmanlı savunma

Modele kendi scaffold’unu yazma iznini verince ciddi bir risk doğuyor: reward hacking. Yani modelin meşru çözümler üretmek yerine sistemi hile ile yanıltarak ödül kazanması. Birkaç örnek:

Görünür test dosyalarını okuyup beklenen çıktıları hard-code etmek.
Ortamda bulunan bir oracle çözümü kopyalamak.
Doğrulama scriptini değiştirip kendine yüksek puan vermek.

DeepReinforce ekibi bunlara karşı üç katmanlı bir savunma sistemi kurmuş:

1. Sabit trust boundary. Dış sınır kalıcı, değişmez. Environment, tool yüzeyi, test isolation modelin erişimi dışında. Model sadece iç policy scaffold’unu evrimleştirebiliyor.

2. Deterministik monitor. Yasak eylemleri bayraklıyor. Saklı dosya yollarını okuma, verification script’ini düzenleme — bu davranışlar 0 ödül üretiyor. Bu trajectory’ler advantage hesabından çıkarılıyor.

3. Donmuş LLM judge. Veto rolünde. Asıl ödül sinyalinin üzerinde, son denetleyici olarak duruyor.

Bu üç katman, “model kendi kuralını yazabilir ama bizim kuralımızı değiştiremez” mantığını uyguluyor.

Benchmark sonuçları: orta seviye iddialı, lider değil

DeepReinforce vendor numaralarını birkaç agentic coding benchmark’ında paylaştı. Flagship 397B modelinin sonuçları:

Terminal-Bench 2.1: 77.5
SWE-Bench Verified: 82.4
SWE-Bench Pro: 62.2
SWE-Bench Multilingual: 78.9
NL2Repo: 48.2
ClawEval Avg: 77.1

Karşılaştırma için tablo:

Benchmark	Ornith-1.0-397B	Qwen3.5-397B	GLM-5.2-744B	DeepSeek-V4-Pro	Claude Opus 4.7	Claude Opus 4.8
Terminal-Bench 2.1	77.5	53.5	81.0	64	70.3	85
SWE-Bench Verified	82.4	76.4	—	80.6	80.8	87.6
SWE-Bench Pro	62.2	51.6	62.1	55.4	64.3	69.2

Önemli gözlemler:

Ornith-397B, base aldığı Qwen 3.5-397B’yi her metrikte belirgin biçimde geçiyor. Self-scaffolding yönteminin somut katkısı bu — aynı base, çok daha iyi sonuç.
Claude Opus 4.7’yi Terminal-Bench 2.1 ve SWE-Bench Verified’da geçiyor.
Ama Claude Opus 4.8’in gerisinde. Aynı boyuttaki GLM-5.2-744B’nin de gerisinde Terminal-Bench’te.

Yani “state-of-the-art” iddiası, “benzer boyuttaki açık ağırlık modeller arasında” ile sınırlanmalı. Genel anlamda lider değil; ama benchmark’lara açıklık + self-scaffolding tekniği + MIT lisans + dört farklı boyut kombinasyonu kayda değer.

Küçük modeller verimlilik tarafında öne çıkıyor

Bence en ilginç tablo flagship değil, küçük modellerin sonuçları:

35B MoE: Terminal-Bench 2.1’de 64.2. Karşılaştırma: Qwen 3.5-397B (10x daha büyük!) sadece 53.5 aldı. Bu, self-scaffolding yönteminin parametre verimliliği yarattığının somut örneği.
9B Dense: Terminal-Bench 2.1’de 43.1, SWE-Bench Verified’da 69.4. 9B sınıfında çok yüksek bir sayı. Edge deployment için kayda değer.

Edge AI veya tek GPU’lu kurulumlar için 9B modeli ciddi seçenek. Bir geliştiricinin Mac Studio M4 Max veya RTX 5090 ile yerel olarak çalıştırabileceği bir model.

Pratik kullanım: vLLM ile tek satır

Modelleri çalıştırmak için DeepReinforce’in önerdiği komut:

vllm serve deepreinforce-ai/Ornith-1.0-9B \
    --served-model-name Ornith-1.0-9B \
    --max-model-len 262144 \
    --enable-auto-tool-choice --tool-call-parser qwen3_xml \
    --reasoning-parser qwen3 \
    --trust-remote-code

Sonra herhangi bir OpenAI client ile çağırılabiliyor:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

resp = client.chat.completions.create(
    model="Ornith-1.0-9B",
    messages=[{"role": "user", "content": "Write a Python is_prime(n)."}],
    temperature=0.6, top_p=0.95,
)
msg = resp.choices[0].message
print(getattr(msg, "reasoning_content", None))  # <think> trace
print(msg.content)                              # final cevap

Önerilen sampling: temperature=0.6, top_p=0.95, top_k=20.

Modeller OpenHands, OpenClaw, OpenCode gibi standart agent çerçeveleriyle doğrudan çalışıyor — ek konfigürasyon gerektirmiyor.

Kimin işine yarar?

Pratik kullanım senaryoları:

9B model — Yerel veya edge kurulum, tek GPU’da çalışacak agentic coding görevleri. Bir geliştiricinin başarısız bir test suite’ini lokal triajlama, küçük bug fix’ler, kod incelemesi için ideal.

31B ve 35B — Takım deployment’ı, bir veya iki GPU ile self-hosted internal coding agent altyapısı. Maliyet/kalite dengesi en mantıklı orta yol.

397B — Platform tarafı, multi-step uzun horizon görevler. SWE-Bench Verified’ta 82.4 ile production-grade coding agent kuracak takımlara hitap ediyor. Ancak donanım maliyeti (8x H100/H200 sınıfı) bireysel kullanım için anlamlı değil.

Açık ağırlık coding modeli yarışındaki yeri

Haziran 2026’nın açık ağırlık coding modeli manzarası:

GLM-5.2-744B (Z.ai, MIT) — Terminal-Bench 81.0, agentic coding lideri
Nex-N2-Pro-397B (Nex AGI, Apache 2.0) — SWE-Bench Pro 58.8 ile rekabetçi
Qwen 3.6 35B-A3B (Alibaba, Apache 2.0) — Boyut sınıfı verimliliği lideri
Ornith-1.0 (DeepReinforce, MIT) — Self-scaffolding metodolojisiyle öne çıkıyor
Mellum2-12B-A2.5B (JetBrains, Apache 2.0) — IDE entegrasyon odaklı
North Mini Code 1.0 (Cohere, Apache+AUP) — Research release

Ornith’in differansiyel iddiası, ham benchmark zirvesi değil — training methodology’deki yenilik. Self-scaffolding fikri, açık ağırlık model üreten her ekip için referans bir teknik olabilir.

Sonuç

Ornith-1.0 ham benchmark performansıyla en üst sıraya oynamıyor — o makamlar şu an Claude Opus 4.8 ve GLM-5.2’nin elinde. Ama methodology bakımından kayda değer bir katkı: scaffold’u öğretilebilir bir parça olarak ele alma, RL aşamasında scaffold-policy co-evolution, üç katmanlı reward hacking savunması.

Pratik açıdan ailenin en değerli parçası, küçük modeller (9B, 35B). 9B’nin SWE-Bench Verified’da 69.4 alması, edge deployment için somut bir kapı açıyor. 35B’nin Qwen 3.5-397B’yi geçmesi de scaffold öğreniminin parametre verimliliğini somut olarak gösteriyor.

Açık ağırlık coding model yarışında her hafta yeni bir oyuncu sahaya çıkıyor. Ornith, ham güç ile değil teknik yenilikle dikkat çekmeyi başaran bir örnek.

Modeller Hugging Face’te DeepReinforce koleksiyonunda, teknik detaylar ise deep-reinforce.com/ornith_1_0.html üzerinden erişilebilir.