JetBrains'ten Mellum2-12B-A2.5B-Thinking: Apache 2.0 Lisanslı Kodlama Uzmanı MoE Modeli

IntelliJ, PyCharm, WebStorm gibi IDE’leriyle bilinen Çek-Hollanda kökenli yazılım şirketi JetBrains, 2 Haziran 2026’da yeni açık kaynak modeli Mellum2-12B-A2.5B-Thinking’i duyurdu. Apache 2.0 lisanslı, Mixture-of-Experts mimarisine sahip, kodlama için özel olarak eğitilmiş bu reasoning modeli, yayınlandığı haftada Hugging Face’te 16 binden fazla indirme alarak hızlı bir başlangıç yaptı.

Modelin temel iddiası net: küçük, hızlı ve kodlama tarafında sınıfının üstünde performans gösteren bir uzman. Ama benchmark’lara dikkatli bakınca, JetBrains’in bir “all-rounder” (her şeyi yapan) modeli kovalamadığı, bilinçli olarak geliştirici-odaklı bir uzman ürettiği belli oluyor.

Mellum’dan Mellum2’ye: focal modelden tam asistana

JetBrains’in ilk Mellum modeli “focal” bir araçtı: yani tek bir görevde, IDE içindeki kod tamamlamada uzmanlaşmıştı. Sadece autocomplete önerileri üretir, sohbet etmez, araç çağırmazdı.

Mellum2 ise tam bir kodlama asistanı olmak için tasarlanmış. Şunları yapabiliyor:

Kod yazma ve düzenleme (multi-file refactoring dahil).
Harici araç çağırma (function/tool calling).
Çok adımlı agentic workflow’lar.
Uzun konuşmalar.
Explicit reasoning — cevaptan önce düşünce zinciri üretme.

Bu, JetBrains’in Anthropic’in Claude Code’u, Cursor’ın Composer’ı, Cline gibi terminal/IDE tabanlı coding agent ekosistemine kendi açık ağırlık modeliyle giriş yapması anlamına geliyor.

Teknik özellikler

Mellum2-12B-A2.5B-Thinking’in mimari profili:

Toplam parametre: 12 milyar.
Aktif parametre (her token başına): ~2,5 milyar. 64 expert arasından 8 tanesi aktive ediliyor.
Katman sayısı: 28.
Hidden size: 2.304, MoE intermediate: 896.
Attention: GQA (Grouped-Query Attention), 32 query head + 4 KV head.
Context window: 131.072 token (128K).
Sliding window attention: 1.024 token.
Vocabulary: 98.304 token.
Precision: bfloat16.
Eğitim verisi: ~10,6 trilyon token (yazılım mühendisliği görevlerine odaklı).
Lisans: Apache 2.0.

“Thinking” varyantı, base modelin üzerine önce supervised fine-tuning (yalnızca asistan dönüşünde loss hesabıyla), sonra zorlu uzun-form matematik veri seti içeren RLVR (Reinforcement Learning with Verifiable Rewards) eğitimi alarak üretilmiş. Cevap üretirken önce <think>...</think> blokları içinde reasoning yapıyor.

Mellum2 ailesi toplam 6 checkpoint olarak yayınlandı: Base-Pretrain, Base, Instruct-SFT, Instruct, Thinking-SFT ve Thinking. “Düşük gecikme istiyorsan Instruct, karmaşık debugging veya çok adımlı planlama istiyorsan Thinking kullan” öneriliyor.

Benchmark’lar: kodlamada sınıfının üstünde, diğer yerlerde Qwen önde

JetBrains, Mellum2 Thinking’i ağırlıklı olarak Qwen3.5-4B ve Qwen3.5-9B ile karşılaştırıyor (OLMo-3 7B ve Ministral 3 14B de tabloda). Sonuçları parçalara ayıralım.

Mellum2’nin açık ara önde olduğu yerler

LiveCodeBench v6 (gerçek kodlama): Mellum2 69,9 vs Qwen3.5-4B 59,4 ve Qwen3.5-9B 68,3. Yani 2,5B aktif parametreli MoE, kendisinden büyük 9B dense Qwen’i bile geçiyor. En net üstünlük burada.
JetBrains pairwise (kendi iç testleri): Mellum2 %69,5 kazanma oranı vs Qwen 4B %40,5 ve Qwen 9B %56,7. Şirketin kendi benchmark’ı olduğu için doğal olarak kendi modeline yarayacak şekilde ayarlanmış olabilir, bu rakamı temkinli okumak lazım.

Aşağı yukarı eşit olduğu yerler

BFCL v4 (tool use): Mellum2 45,6 vs Qwen 4B 42,9 ve Qwen 9B 42,7. Mellum2 hafif önde.
BFCL v3 (tool use): Mellum2 69,4 vs Qwen 4B 73,9 ve Qwen 9B 68,5. Üçü de birbirine yakın.

Qwen’in açık ara önde olduğu yerler

AIME (matematik olimpiyat): Mellum2 58,4 vs Qwen 4B 68,3 ve Qwen 9B 73,4. Zorlu matematikte ciddi açık.
GSM-Plus (ilkokul matematik): Mellum 87,0 vs Qwen 89,3 / 90,7. Hepsi iyi, Qwen önde.
MMLU-Redux (genel bilgi): Mellum 86,2 vs 88,3 / 91,7. Qwen 9B belirgin önde.
GPQA Diamond (lisansüstü düzey bilim): Mellum 57,6 vs Qwen 4B 76,8 ve Qwen 9B 81,3. Tüm tablonun en büyük açığı.
IFEval (talimat takibi): Mellum 76,5 vs Qwen 87,1 / 89,8. Kullanıcının söylediğini tam yapma cephesinde Qwen önde.
MixEval (genel sohbet): Mellum 66,9 vs Qwen 71,9 / 76,0.
BS-Bench: Mellum sadece 15,0 vs Qwen 63,0 / 70,0. Dramatik fark.

Güvenlik tarafında durum karışık

HarmBench (düşük daha iyi, zararlı isteklere uyum oranı): Mellum 20,6 vs Qwen 4B 15,9 ve Qwen 9B 6,6. Qwen zararlı istekleri çok daha sıkı reddediyor. Karşılaştırma noktası: OLMo-3 48,7 ve Ministral 3 70,0 — bu iki model çok daha kötü durumda.
XSTest (gereksiz reddi önleme): Hepsi yakın, Mellum 89,6 vs Qwen 96,8 / 97,6.

Bu rakamlar bize ne söylüyor?

JetBrains kasten dengeli bir “genelci” model değil, geliştiriciler için bilinçli olarak kodlama uzmanı üretmiş. Eğitim verisinin 10,6 trilyon tokeni ağırlıklı olarak yazılım mühendisliği verisinden oluşuyor; bu, matematik, fen bilimleri, talimat takibi ve genel sohbet performansının pahalıya geldiği bir tercih.

Sonuçlar bu tercihle uyumlu:

Kazandığı yer: Sınıfının üstünde kod yazıyor. Sadece 2,5B aktif parametreyle 9B Qwen’den daha iyi LiveCodeBench skoru aldı. Eğer derdiniz IDE içinde otomasyon, kod tamamlama, debugging veya küçük scriptler ise bu model fiyat/performans olarak çok cazip.

Kaybettiği yer: Bilim sorularına cevap, karmaşık matematik problemleri, hassas talimat takibi gerektiren senaryolarda Qwen3.5 ailesi açık ara önde. GPQA Diamond’da Mellum 57,6 → Qwen 9B 81,3 — ciddi bir bilgi/akıl yürütme açığı.

Ayrıca dikkat: JetBrains’in “pairwise” testi şirketin kendi iç değerlendirmesi olduğu için tarafsız değil. Bu skoru “kendi modelini referans olarak değerlendirdiklerinde” şeklinde okumak gerek.

Apache 2.0 açık ağırlık ekosistemindeki yeri

2026’nın Apache 2.0 küçük model yarışındaki yeri:

Kodlama uzmanı: Mellum2-12B-A2.5B-Thinking burada konumlanmak istiyor. LiveCodeBench’te Qwen3.5-9B’yi geçiyor.
Saf reasoning ve matematik: Qwen3.5-9B, DeepSeek, Qwen3.6-35B-A3B önde.
On-device küçük model: Liquid LFM2.5-8B-A1B, Gemma 4 küçük varyantları, SmolLM.
Agent + multimodal + tool use: StepFun Step 3.7 Flash (198B), Qwen3.5 büyük modelleri.
Genelci küçük model: Gemma 4, Qwen3.5-9B, Phi-4.

Mellum2’nin sloganı kabaca şu: “Hem küçük hem hızlı bir kodlama asistanı istiyorsan — bir 70B model çalıştıracak donanımın yoksa — ben varım.”

Kimin işine yarar?

JetBrains IDE kullanıcıları için doğal seçim. Şirket muhtemelen IntelliJ ailesindeki AI Assistant entegrasyonu için bu modeli temel alacak.

Coding agent çerçevesi geliştirenler için açık ağırlık ve Apache 2.0 olması büyük artı. Hermes Tool Parser üzerinden vLLM ve SGLang’de native tool calling desteğiyle çalışıyor.

Yerel deployment isteyen takımlar için: 12B/A2.5B mimarisi quantize edildiğinde Mac Studio M4 Max, NVIDIA RTX 5090 veya AMD Ryzen AI Max+ 395 gibi yüksek bellekli yerel donanımlarda rahatça çalışıyor. 16-bit precision’da yaklaşık 24 GB VRAM gerekiyor.

Genel chat veya araştırma için olmayan biri: Mellum2 size doğru cevap üretmez. ChatGPT ya da Claude tarzı “ne sorarsam sorayım yanıt versin” senaryosu için Qwen3.5-9B veya Gemma 4 daha iyi seçimler.

Sonuç

Mellum2-12B-A2.5B-Thinking, “general purpose” küçük LLM yarışına bir model daha eklemiyor; geliştiricilerin gerçekten ihtiyaç duyduğu spesifik bir kategoriyi — küçük, hızlı, açık kaynak kod asistanı — doldurmaya çalışıyor. Tablo, JetBrains’in odaklandığı şeyde sınıfının üstünde olduğunu, odaklanmadığı şeyde ise bilinçli olarak Qwen ailesinin gerisine düştüğünü gösteriyor.

Bu, açık ağırlık ekosistemi açısından sağlıklı bir gelişme: artık “tek model her şeyi yapsın” değil, “her uzmanlık için bir model” trendi gerçekten oturuyor. Coder’sanız Mellum2’ye bir şans verin. Genel asistan arıyorsanız bu sıra size göre değil.

Model Hugging Face üzerinden açık ağırlıklı şekilde indirilebiliyor, vLLM ve SGLang’de native serve edilebiliyor; llama.cpp, Ollama, LM Studio için quantize versiyonlar da mevcut.