Anthropic’ten Claude Fable 5 ve Mythos 5: ‘Mythos Sınıfı’ Modelin Kamuya Açılışı, SWE-Bench Pro’da %80.3 ile Liderlik

Anthropic, 9 Haziran 2026’da yapay zeka tarihinin en güçlü kamu modellerinden birini duyurdu: Claude Fable 5. Şirketin Opus sınıfının üzerinde konumlandırdığı yeni “Mythos sınıfı” aileden geliyor; aynı temel modelin güvenlik kısıtlamaları kaldırılmış versiyonu Claude Mythos 5 ise sadece sınırlı bir grup siber savunmacıya, biyomedikal araştırmacıya ve ABD hükümetiyle işbirliği içindeki Project Glasswing partnerlerine açık.

Bu lansman, açık ağırlık ekosisteminin (Nex-N2-Pro, Qwen3.5, DeepSeek-V4-Pro) son haftalarda yakaladığı agentic coding momentumunun karşısına, kapalı kaynak tarafının en güçlü cevabı.

“Mythos sınıfı” ne demek?

Anthropic, Fable 5 ile birlikte Claude model ailesine yeni bir üst kademe ekledi. Hiyerarşi şöyle:

  • Mythos: Opus’un üzerinde, en üst kapasite seviyesi.
  • Fable: Mythos’la aynı model, ama public release için güvenli hale getirilmiş.
  • Opus: Klasik premium model (Opus 4.8 hâlâ aktif).
  • Sonnet: Dengeli, hızlı.
  • Haiku: En küçük ve hızlı.

İsim seçimi de açıklayıcı: Fable, Latince “anlatılan şey” (fabula); Mythos ise Yunanca eşdeğeri. İki modelin teknik içeriği aynı — aralarındaki fark sadece güvenlik kısıtlamalarında. Bu yüzden farklı isimler verilmiş.

Ne kadar güçlü?

Fable 5, Anthropic’in bugüne kadar genel kullanıma sunduğu en yetenekli model. Test edilen neredeyse tüm benchmark’larda state-of-the-art. Görev ne kadar uzun ve karmaşıksa, Fable 5’in diğer modeller karşısındaki liderlik farkı o kadar büyüyor.

Yazılım mühendisliği:

  • SWE-Bench Pro: %80.3 — GPT-5.5’in %58.6’sının çok üzerinde.
  • SWE-Bench Verified: %95.0
  • FrontierCode Diamond: %29.3 — Opus 4.8’in %13.4’ü, GPT-5.5’in %5.7’sinin önünde. Bu “yüksek kaliteli, sürdürülebilir agentic coding” testinde belirgin bir sıçrama.
  • CursorBench: %72.9 (maksimum effort).

Reasoning effort’la ölçeklenme de etkileyici: SWE-Bench Pro’da düşük effort’ta %75.0, yüksek effort’ta %80.4. FrontierCode Diamond’da %11.5’ten %30.9’a çıkıyor. Yani uzun horizon ve zor görevler için yüksek effort açmak gerçek bir performans karşılığı veriyor.

Stripe’ın gerçek dünya testi belki en çarpıcı veri. Erken erişimle yapılan değerlendirmede Fable 5, 50 milyon satırlık bir Ruby kod tabanı üzerinde codebase-wide migration’ı bir günde tamamladı — aynı işin bir takımın iki aydan fazla zamanını alacağı bir görev. “Ay’ların mühendisliğini günlere sıkıştırdı” ifadesi şirket tarafından kullanılıyor.

Bilgi işi (knowledge work):

  • Hebbia’nın senior-level reasoning gerektiren Finance Benchmark’ında tüm modellerin önünde.
  • IMC’nin trading-analysis değerlendirmelerinde “neredeyse tamamen yüksek skor”.
  • Hex’in core analytics benchmark’ında ilk %90 barajını aşan model — Opus 4.8’in 10 puan üzerinde.

Görsel anlama (vision): Fable 5 için ayrı bir kategori. Modelin yapabildikleri:

  • Detaylı bilimsel grafiklerden hassas sayılar çıkarma.
  • Sadece ekran görüntülerinden bir web uygulamasının kaynak kodunu yeniden inşa etme.
  • Önceki Claude modellerinin yardımcı araçlarla bile zorlandığı Pokémon FireRed oyununu, sadece görsele dayalı minimal bir harness ile baştan sona oynayıp bitirdi.

Uzun context ve hafıza: Modelin milyonlarca token boyunca odaklı kalma ve kendi notlarını kullanarak çıktısını iyileştirme yetisi belirgin. Slay the Spire deck-building oyununda kalıcı dosya tabanlı hafıza eklendiğinde Fable’ın performansı Opus 4.8’e göre üç kat daha fazla iyileşti; oyunun son akt’ına ulaşması da üç kat daha sık oldu.

Mythos 5 ve bilimsel keşif

Mythos 5 (güvenlik kısıtlamaları kaldırılmış versiyon) bilim cephesinde çarpıcı örnekler veriyor:

İlaç tasarımı: Anthropic’in dahili protein tasarım uzmanları, Mythos 5 ile ilaç tasarım sürecini yaklaşık 10 kat hızlandırdı. Model, protein tasarım ve bioinformatik araçlarıyla, ama insan yardımı olmadan, hedef seçimi, araç seçimi ve çalıştırma, hata durumunda toparlanma gibi tüm görevleri kendi başına yapıyor. 14 protein hedefinden 9’u güçlü ilaç adayları üretti.

Moleküler biyolojide yeni hipotezler: Mythos 5, Anthropic’in bilim adamlarının kör değerlendirmesinde Opus sınıfı modellere karşı ~%80 oranında tercih edilen ilk model. Hipotezlerden biri (E. coli proteinine ait yeni bir mekanizma), bağımsız çalışan başka bir laboratuvarın paralel araştırmasıyla doğrulandı.

Genomik araştırma: Mythos 5, bir haftalık büyük ölçüde otonom çalışmayla, 138 hayvan türünden milyonlarca tek-hücre verisini bir araya getirip kendi makine öğrenme modelini tasarladı ve eğitti. Science dergisinde yakın zamanda yayımlanan bir modeli, kendisinin 100 kat küçüğüyle geride bıraktı. Sonuçlar yayınlanmak üzere.

Güvenlik kısıtlamaları: nereye gidiyor?

Mythos sınıfı modeller, Anthropic’in “ciddi risk eşiği” olarak tanımladığı kapasiteye ulaşmış durumda. Bu yüzden Fable 5 üç ana cephede sınıflandırıcı (classifier) sistemiyle korunuyor:

1. Siber güvenlik. Mythos sınıfı modeller yazılım açıklarını bulma ve istismar etmede son derece güçlü. Bir dış değerlendirmede Fable 5, planlanmış siber saldırı, exploit geliştirme ve savunma bypass’ı içeren tek tek 30 farklı public jailbreak tekniğine karşı sıfır zararlı yanıt üretti.

2. Biyoloji ve kimya. Mythos sınıfı modeller AAV (adeno-associated virus) tasarımı gibi gen terapisi görevlerinde, özelleşmiş protein dil modellerini geçiyor — bu çift kullanımlı bir kapasite. Anthropic, güvenli bir başlangıç için biyoloji ve kimya konularında geniş bir filtre uyguluyor.

3. Distillation (model çalma). Otoriter ülkelerde rakip model eğitmek için Claude’un kapasitelerini çekme girişimleri Anthropic tarafından önceden tespit edilmişti. Distillation girişimi olarak işaretlenen sorgular Opus 4.8’e düşüyor.

Sınıflandırıcılar bir sorguyu yakaladığında model cevap vermek yerine Claude Opus 4.8’e fallback yapıyor. Yani “reddetme” değil, “biraz daha eski ama hâlâ çok güçlü bir modelle cevap verme”. Anthropic’in açıklamasına göre oturumların %95’inden fazlasında fallback hiç tetiklenmiyor; bu durumda Fable 5 performansı pratik olarak Mythos 5’e eşit.

Tüketici platformunda gizli kalan ama API üzerinden geliştirici için kayda değer bir özellik: opt-in ile Messages API üzerinden fallback’ı kontrol edebiliyorsunuz, ya da Anthropic SDK ile kendi fallback’ınızı kuruyorsunuz. Managed Agents’ta fallback varsayılan olarak built-in.

Claude Managed Agents: public beta

Fable 5 lansmanıyla birlikte Claude Managed Agents da public beta’ya geçti. Bu, Anthropic’in uzun süreli agentic iş için sunduğu hosted harness. Özellikleri:

  • Secure sandbox’da kod çalıştırma.
  • Authentication ve scoped permission’lar.
  • Checkpointing — oturumlar duraklayıp temiz şekilde devam edebiliyor.
  • Stateful by design — konuşma geçmişi, sandbox state, çıktılar sunucu tarafında.
  • Dreaming: Geçmiş oturumları gözden geçirip pattern’leri çıkaran, agent’ı zamanla iyileştiren özellik.
  • Multiagent Orchestration: Bir lead agent, işi parçalara bölüp her birini kendi modeli, prompt’u ve aracı olan bir uzmana delege ediyor.
  • Self-hosted sandbox + MCP tunnel: Hassas dosyaları kendi altyapınızda tutarken, agent loop Anthropic tarafında çalışıyor.

Fable 5, Managed Agents ile hiçbir değişiklik yapmadan çalışıyor — out-of-the-box.

Advisor stratejisi: maliyeti optimize etme

Anthropic’in lansmanla birlikte öne çıkardığı yeni desen: advisor strategy. Daha ucuz worker modeller (Sonnet veya Haiku) ana işi yapıyor; kritik kararlarda veya planlama doğrulamasında Fable 5’i bir advisor olarak çağırıyor. Bu hem maliyeti düşürüyor hem de uzun horizon görevlerde Fable 5 kalitesinin yararını sağlıyor.

Yusuke Kaji (Recruit, GM, AI for Business): “En yüksek effort’ta Claude Fable 5 kendi çalışmasını gözden geçirip doğruluyor. Bizim için yüksek otonom operasyonu mümkün kılan da bu — ekstra düşünme kendi kendini ödüyor.”

Fiyatlandırma: yarı yarıya düştü

Fable 5 ve Mythos 5 fiyatları:

  • Input: milyon token başına 10 dolar.
  • Output: milyon token başına 50 dolar.

Bu, Mythos Preview fiyatının yarısından az. Anthropic’in fiyat eğrisini agresif tutması, Nex-N2-Pro (OpenRouter’da ücretsiz!) gibi açık ağırlık alternatiflere karşı rekabet pozisyonu açısından önemli.

Subscription planları:

  • 9 – 22 Haziran 2026 arası: Pro, Max, Team ve seat-based Enterprise planlarında Fable 5 ek ücret olmadan dahil.
  • 23 Haziran sonrası: Usage credit ile çalışacak.
  • Kapasite arttıkça plan dahil yeniden dahil edilecek.

30 gün veri saklama: yeni şart

Mythos sınıfı modeller için Anthropic yeni bir veri saklama politikası getiriyor: tüm trafik için 30 günlük zorunlu saklama. Anthropic, bu verileri eğitim için kullanmıyor — sadece “karmaşık ve yeni saldırıları” (yeni jailbreak girişimleri, çoklu request’e yayılan saldırılar dahil) tespit etmek için kullanıyor. Veri 30 gün sonra siliniyor, insan erişimi loglanıyor.

Yöneticilerin (admin’lerin) modeli kullanmadan önce Claude Console’da yeni terms’ı kabul etmesi gerekiyor. Geliştiriciler için bu yeni bir compliance yükü — ama Anthropic’in çıkardığı argüman, bu kalibredeki bir modelin sorumlu deployment’ı için gerekli.

Müşteri yorumları: birkaç dikkat çekici alıntı

Michael Truell (Cursor CEO): “Claude Fable 5, CursorBench’te state of the art. Daha önceki modellerin ulaşamadığı uzun horizon problemler için yeni bir sınıf açtı.”

Mario Rodriguez (GitHub Chief Product Officer): “Fable 5, GitHub’ın hizmet verdiği geliştiriciler için gerçek bir adım. Karmaşık, uzun horizon kodlama görevlerini önceki benchmark’ları aşan bir otonomi ile aldı.”

Sean Ward (CEO, FutureHouse): “Fable 5’in reasoning’i Opus 4.8’in açık şekilde önünde. Senior araştırma bilimcisi seviyesinde çalışıyor — yön seçiyor, kaynak ayırıyor, yanlış inançlarını öldürüyor, first-principles çıktılar üretiyor.”

Matthew Pines (CEO, Periodic Labs): “Fable 5, frontier fizik araştırmasında test ettiğimiz en güçlü model — üstelik üçte bir kadar reasoning token kullanarak. 36 saatte, GPT-5.5’in 4 günde ulaştığı noktaya neredeyse vardı.”

Kapalı kaynağın açık ağırlığa cevabı

2026’nın ilk yarısında açık ağırlık ekosistem (Qwen3.5, DeepSeek-V4-Pro, Nex-N2-Pro, GLM-5.1, MiniMax M3) GPT-5.5 ve Opus 4.8 seviyesine yaklaştı, hatta bazı benchmark’larda geçti. Fable 5 ve Mythos 5 lansmanı, Anthropic’in “hâlâ üst sınıfta ne yapabileceğini” göstermesi açısından stratejik.

SWE-Bench Pro’da %80.3 ile, Fable 5 bilindiği kadarıyla GPT-5.5 (%58.6) ve Nex-N2-Pro (%58.8) gibi rakiplerinin önünde. FrontierCode Diamond’da %29.3, Opus 4.8’in %13.4 ve GPT-5.5’in %5.7’sine göre uçurum açıyor.

Ama söz konusu olan kapalı kaynak, fiyat olarak hâlâ açık ağırlık tarafından çok yukarıda — özellikle Nex-N2-Pro’nun OpenRouter’da bedava sunulduğu düşünüldüğünde. Geliştiricilerin gerçek soru’su şu olacak: “Long-horizon coding ve karmaşık reasoning için Fable 5 değerine değer mi, yoksa Nex-N2-Pro veya Qwen3.5 yeterli mi?”

Cevap kullanım senaryosuna göre değişir. Stripe gibi 50M satırlık codebase’ler üzerinde çalışan kurumsal müşteriler için Fable 5 muhtemelen para kazandıracak. Bireysel geliştiriciler ve small team’ler için açık ağırlık alternatifleri çok daha pratik kalmaya devam edebilir.

Nasıl deneyebilirsiniz?

Fable 5 bugünden itibaren:

  • Claude API üzerinden, model ID: claude-fable-5.
  • Pro, Max, Team subscription planlarında 22 Haziran’a kadar dahil.
  • Enterprise consumption-based planlarda full erişim.
  • Cursor, GitHub Copilot, Claude Code gibi entegrasyonlarda partner kanalı üzerinden.

Mythos 5 ise sadece Project Glasswing partnerleri ve yakında açılacak trusted access programındaki biyoloji araştırmacıları için.

Sonuç

Claude Fable 5, Anthropic’in bugüne kadar kamuya açtığı en güçlü model. Yazılım mühendisliği, knowledge work, vision ve uzun horizon görevlerde sınıfının önünde. Stripe’ın iki aylık takım işini bir güne sıkıştırması gibi gerçek dünya örnekleri, “agentic AI’ın enterprise gerçeği” iddialarına somut karşılık veriyor.

Ama bedeli net: 30 günlük zorunlu veri saklama, conservative tuned safety classifier’lar (false positive’lar olabilir), ve yüksek fiyatlama. Açık ağırlık ekosistemi de duruyor — ve hızla Fable 5 seviyesine yaklaşıyor.

Anthropic’in vizyonu açık: model kalibresi tehlikeli eşiği geçti, ama sorumlu deployment ile bu kalibreyi geniş kitlelere açmak mümkün. Fable 5, bu vizyonun şu anki en somut örneği. Geliştiriciler ve kurumsal AI takımları için önümüzdeki haftalar, bu yeni model’in gerçek dünya iş akışlarında nereye oturduğunu test etme dönemi olacak.

Comments

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir