Toronto’dan Ideogram 4: Kanada Çıkışlı İlk Açık Ağırlık Text-to-Image, 9.3B Parametreyle Qwen-Image ve FLUX’u Geride Bırakıyor

Toronto merkezli yapay zeka şirketi Ideogram, 3 Haziran 2026’da kurulduğundan beri ilk açık ağırlıklı modelini yayınladı: Ideogram 4. Tasarım, tipografi ve metin renderlama tarafında lider konumda olan şirket, kapalı kaynak ürün stratejisinden ilk kez çıkarak modelini Hugging Face üzerinden indirilebilir hale getirdi. Kanada’dan çıkan bu model, sadece açık ağırlıklı rakipleri değil GPT Image ve Gemini gibi proprietary devleri de bazı kategorilerde zorluyor.

Ideogram kim, neden öne çıkıyor?

Ideogram, 2022 sonunda dört eski Google Brain araştırmacısı tarafından Toronto’da kuruldu:

  • Mohammad Norouzi (CEO)
  • William Chan (CTO)
  • Chitwan Saharia
  • Jonathan Ho — 2020’de yayınladığı “Denoising Diffusion Probabilistic Models” (DDPM) makalesi bugün kullanılan tüm diffusion image modellerinin temelini attı.

Dördü de Google’ın Imagen text-to-image projesinde çalışmıştı. 2022 sonunda Google’dan ayrılma sebepleri kayıtlara “daha hızlı hareket edebilmek için” olarak geçti. 2023’te 16,5 milyon dolar seed, 2024 başında 80 milyon dolar Seri A yatırım aldılar. Yatırımcılar arasında a16z, Index Ventures, ve melek yatırımcı olarak Andrej Karpathy ve Jeff Dean var.

Ideogram’ın kapalı kaynak ürün olarak öne çıkardığı özellik hep aynıydı: görsellerde metin renderlama. Rakiplerinin (Midjourney, DALL-E 3, Stable Diffusion) en zayıf olduğu cephede — logo, levha, afiş, tipografi — Ideogram çok daha iyi sonuç veriyordu. Bu, profesyonel tasarımcı ve pazarlama ekipleri arasında hızlı bir kullanıcı tabanı oluşmasını sağladı.

Ideogram 4: ilk açık ağırlık

Ideogram 4, şirketin tamamen sıfırdan eğitilmiş bir foundation modeli; herhangi bir mevcut modelin fine-tune’ı veya distillation’ı değil. Modelin iki varyantı yayınlandı:

  • ideogram-4-nf4: 9.3B parametre, NF4 quantization, sadece CUDA donanım.
  • ideogram-4-fp8: 9.3B parametre, FP8 quantization, daha geniş donanım desteği.

Lisans önemli bir detay: Ideogram 4 Non-Commercial License. Yani Apache 2.0 gibi tamamen serbest değil; akademik ve araştırma kullanımı serbest ama ticari kullanım için Ideogram’dan lisans alınması gerekiyor. Bu, Gemma 4’ün Apache 2.0’a geçişi sonrasında ekosistemde gözlenen permissive trende rağmen biraz daha kapalı bir konumlanma. Anlaşılır bir tercih: Ideogram’ın ana gelir kaynağı API ve abonelik.

Mimari: novel bir DiT yaklaşımı

Ideogram 4’ün mimarisi açık kaynak diffusion modelleri arasında birkaç açıdan farklı:

Tek akışlı (single-stream) DiT: Metin ve görsel token’ları tek bir sıralı dizide birleştirilip aynı 34 katmanlı transformer üzerinden geçiyor. Çoğu rakip modelde (FLUX, SD3) ayrı metin ve görsel branch’ler vardı. Single-stream tasarım, her katmanda derin cross-modal etkileşim sağlıyor.

Vision-language model text encoder: CLIP veya T5 yerine, Ideogram 4 metin encoder olarak Qwen3-VL-8B-Instruct kullanıyor — tam bir görsel-dil modeli. Hidden state’ler 13 ara katmandan çıkarılıp birleştiriliyor; bu sayede yüzeysel token bilgisinden derin kompozisyonel anlama kadar çok ölçekli semantik özellikler sağlanıyor. Bu yaklaşım open source diffusion için kayda değer bir yenilik — Alibaba’nın açık ağırlıklı dil modelini kullanarak Kanadalı bir şirket sınıfının lideri text-to-image üretmiş oluyor.

Çift dallı classifier-free guidance: Pozitif (koşullu) ve negatif (koşulsuz) dallar bağımsız olarak refine edilebiliyor. Bu, prompt uyumu ile görüntü kalitesinin ayrı kontrol edilmesini sağlıyor.

Esnek çözünürlük: 256×256’dan 2048×2048’e kadar (16’nın katları olmak şartıyla) herhangi bir çözünürlük; en boy oranı 6:1’e kadar. Tek model küçük kare thumbnail’dan ultra geniş banner’a kadar her şeyi üretiyor, noise schedule çözünürlüğe göre otomatik ayarlanıyor.

Flow-matching eğitim: Klasik diffusion (DDPM) yerine flow matching. Daha az adımda kaliteli sample üretiminin önünü açıyor.

JSON tabanlı prompting: temel inovasyon

Ideogram 4 sadece düz metin prompt’u almıyor — yapısal JSON caption üzerinde eğitilmiş. Bunun pratik anlamı, kullanıcının çok ayrıntılı kontrol yapabilmesi:

  • colour_palette: Hex renk dizisi vererek görüntünün baskın renk şemasını yönlendirme.
  • bbox: Sınırlayıcı kutu koordinatları vererek nesneleri, metni ve arka plan bölgelerini açıkça konumlandırma.
  • compositional_deconstruction: Element başına ayrı tanımlamalar ve bbox’larla precise spatial layout.

Eğitim caption’ları kasıtlı olarak aşırı tanımlayıcı: her görselin tüm elementleri exhaustively açıklanmış. Bu, modelin tek bir eğitim çiftinden çok daha fazla metin-görsel ilişkisi öğrenmesini sağlıyor.

JSON yazmak istemeyenler için “magic prompt” var: bir LLM düz metni JSON’a otomatik dönüştürüyor. Ideogram’ın kendi magic-prompt API’si bedava ve sunucu tarafında çalışıyor.

Benchmark’lar: açık ağırlıkta lider, kapalıyı zorluyor

Ideogram 4’ün üçüncü taraf ve iç değerlendirmelerde elde ettiği sonuçlar:

Design Arena (tasarım odaklı Elo): Açık ağırlıklı modeller arasında 1. sıra. Genel sıralamada sadece GPT ve Gemini gibi proprietary devler önünde.

ContraLabs profesyonel tipografi değerlendirmesi: 10 profesyonel tasarımcının kör testinde Ideogram 4, %47,9 birinci olma oranı ile lider. Karşılaştırma: Gemini 3.1 Flash Image Preview (Nano Banana 2) %30, FLUX.2 [max] %15,5, Grok Imagine 1.0 %15. “Gerçek bir müşteri işinde kullanır mıydınız?” sorusunda Ideogram 4 5 üzerinden 3,55 aldı — Nano Banana 2 (2,84), Grok Imagine 1.0 (2,61), FLUX.2 (2,49) belirgin biçimde geride.

LMArena (genel text-to-image lider tablosu): En üst sıradaki açık ağırlık labı; top-5 genel lab — sadece çok daha büyük bütçeli devler önünde.

Ideogram iç değerlendirme: Grafik tasarımcılar tarafından kör değerlendirme, Bradley-Terry skor; Ideogram 4 2. sıra, sadece GPT Image 2 medium önünde.

Açık kaynak benchmark’lar: 7Bench (layout kontrol), SpatialGenEval (spatial reasoning), X-Omni OCR (metin renderlama) ve Prism (prompt alignment) testlerinde Ideogram 4 her eksende kapalı kaynak modellere göre farkı kapatıyor. 7Bench layout kontrolde tüm kapalı kaynak modellerden önde.

Metin renderlama parametre verimi: En etkileyici sonuç burada. 9,3B parametre ile Ideogram 4, çok daha büyük açık ağırlık modellerini geçiyor: Qwen-Image (20B), FLUX.2 [dev] (32B), HunyuanImage 3.0 (80B MoE) — hepsinin önünde.

Pratik kullanım

Inference için Ideogram 4’ün resmi GitHub deposu (ideogram-oss/ideogram4) var. Diffusers desteği de mevcut. Tipik komut:

python run_inference.py \
  --prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \
  --output out.png \
  --quantization "nf4" \
  --magic-prompt-key "$IDEOGRAM_API_KEY"

En yüksek kalite için --height 2048 --width 2048 ve --sampler-preset V4_QUALITY_48 öneriliyor.

Donanım gereksinimi: NF4 quantize edilmiş versiyon ~24 GB VRAM’li RTX 5090 veya benzer kartlarda rahat çalışıyor. FP8 versiyonu daha esnek donanım desteği sağlıyor ama VRAM ihtiyacı benzer. Apple Silicon’da Diffusers üzerinden MPS backend ile çalışıyor.

Modelin Hugging Face deposu gated, yani indirmek için Ideogram lisans şartlarını kabul etmek ve auth token kullanmak gerekiyor.

Türkçe için ne anlama geliyor?

Ideogram’ın text rendering avantajı sadece İngilizce için değil. Çoklu dil destek iddiası güçlü ve mimari (vision-language model encoder) Türkçe karakterler için de iyi sonuç verme potansiyeli sunuyor. Logo, afiş, sosyal medya görseli, banner gibi pratik tasarım işlerinde Türkçe metin doğru renderlanabiliyor — bu pazarda hâlâ ciddi bir açık olan bir kapasite.

Sonuç

Ideogram 4, Kanada’nın AI ekosisteminden çıkan en olgun açık ağırlık modellerden biri. Ex-Google Brain takımının teknik altyapısı, novel mimari seçimler (Qwen3-VL text encoder, single-stream DiT, JSON caption training) ve son derece somut bir uzmanlık alanı (tasarım, tipografi) bir araya gelince ortaya FLUX, Qwen-Image ve HunyuanImage gibi çok daha büyük modelleri tipografi ve layout’ta geçen bir sonuç çıkıyor.

Tek pürüz lisans: Non-Commercial olduğu için ürüne entegre etmek isteyen herkesin Ideogram ile lisans anlaşması yapması gerekiyor. Bu, modelin geliştirici topluluğunda Apache 2.0 alternatifleri kadar yayılmasını yavaşlatabilir. Ama araştırmacılar, yan proje geliştiren bireyler ve Ideogram’ın kurumsal müşterileri için kayda değer bir yetenek artışı.

Ideogram’ın bu adımıyla açık kaynak text-to-image yarışı — Stability AI’ın gerilemesinden sonra — FLUX (Black Forest Labs), Qwen-Image (Alibaba), HunyuanImage (Tencent) gibi isimlere bir Kanada cevabı eklendi.

Comments

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir