Trinity-Mini: Kuantizasyona Gerek Kalmadan RTX 5090’a Sığan 26B Parametreli Amerikan Yapay Zeka Modeli

Amerikan yapay zeka şirketi Arcee AI, açık kaynak dünyasında ciddi ses getiren yeni modeli Trinity-Mini‘yi duyurdu. 26 milyar toplam parametreye sahip olan bu Mixture-of-Experts (MoE) model, çıkarım sırasında yalnızca 3 milyar aktif parametre kullanıyor ve bu sayede tüketici sınıfı donanımlarda bile rahatlıkla çalışabiliyor.

Amerika Açık Kaynak Sahnesine Geri Dönüyor

Son dönemde açık kaynak yapay zeka yarışında Çinli şirketler (Qwen, DeepSeek) ve Avrupalı girişimler (Mistral, H Company) öne çıkarken, Amerikan tarafı nispeten sessiz kalmıştı. Trinity-Mini, bu sessizliği bozan önemli bir adım. Arcee AI, 512 adet H200 GPU üzerinde 10 trilyon token ile eğittiği bu modelle, Amerika’nın açık kaynak yapay zeka arenasında hâlâ güçlü bir oyuncu olduğunu hatırlatıyor.

Teknik Detaylar

Trinity-Mini, AfmoeForCausalLM adlı özel bir mimari kullanıyor. Modelin uzman (expert) yapısı oldukça ilginç: toplamda 128 uzman barındırırken, her çıkarımda yalnızca 8 uzman aktif oluyor ve bunlara ek olarak 1 paylaşımlı uzman bulunuyor. Bu tasarım, modelin 26B toplam parametresine rağmen yalnızca 3B aktif parametreyle çalışmasını sağlıyor.

Modelin öne çıkan teknik özellikleri şöyle sıralanabilir: 128K token bağlam penceresi (context length), 11 dil desteği, Apache 2.0 açık kaynak lisansı ve reasoning (akıl yürütme) odaklı ince ayar. Eğitim verisi, Datology AI ortaklığıyla derlenen özel bir veri seti üzerine, AFM-4.5B veri setinin genişletilmesiyle oluşturulmuş; matematik ve kod alanlarında ek verilerle zenginleştirilmiş.

Performans: Boyutunun Üzerinde

Trinity-Mini, benchmark sonuçlarında kendi ağırlık sınıfının oldukça üzerinde performans sergiliyor. Arcee AI’ın paylaştığı verilere göre model, OSS-20B seviyesindeki açık kaynak modellerden daha iyi sonuçlar elde ediyor. Her ne kadar Qwen 3.5 35B-A3B gibi üst segment modellerin tam performansına ulaşamasa da, boyut-performans dengesinde dikkat çekici bir konumda yer alıyor.

Tüketici Donanımına Sığan Güç

Trinity-Mini’nin belki de en çekici özelliği, erişilebilirliği. 26B toplam / 3B aktif parametre yapısıyla model, NVIDIA RTX 5090 gibi tüketici sınıfı bir ekran kartına kuantizasyon (quantization) bile uygulamadan sığabiliyor. Karşılaştırma yaparsak: Qwen 3.5 35B-A3B de benzer donanıma sığabiliyor, ancak bunun için kuantizasyon gerekiyor. Trinity-Mini ise tam hassasiyetle (full precision) çalışabiliyor — bu da kalite kaybı olmadan yerel çalıştırma imkanı demek.

Model halihazırda llama.cpp, VLLM, LM Studio ve Ollama gibi popüler yerel çalıştırma araçlarıyla uyumlu. Hugging Face üzerinde 17 farklı kuantize versiyonu da mevcut; ancak belirttiğimiz gibi, tüketici donanımında kuantizasyona ihtiyaç duymadan da kullanılabiliyor.

Nasıl Denenir?

Trinity-Mini’yi denemek isteyenler için birkaç seçenek mevcut: Arcee AI’ın chat.arcee.ai adresindeki demo arayüzü, OpenRouter API üzerinden erişim veya doğrudan Hugging Face‘ten model ağırlıklarını indirip yerel ortamda çalıştırma. Lisans Apache 2.0 olduğundan ticari kullanım dahil her türlü amaçla serbestçe kullanılabilir.

Kaynak: Hugging Face – Trinity-Mini | Arcee AI Blog

Comments

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir