NVIDIA Cosmos3-Super-Text2Image: Physical AI için 65B Parametreli Omnimodal Açık Ağırlık Model

NVIDIA, 31 Mayıs 2026’da Physical AI alanında en kapsamlı açık ağırlık modellerden birini yayınladı: Cosmos 3. Robotik, otonom sürüş ve akıllı mekan uygulamaları için tasarlanmış bu omnimodal world model ailesinin parçası olan Cosmos3-Super-Text2Image, 65 milyar parametreyle metinden yüksek kaliteli görüntü üreten yeni bir devrik açık ağırlık alternatifi.

Cosmos 3 nedir?

Cosmos serisi NVIDIA’nın 2024’ten beri geliştirdiği bir “world foundation model” platformu. Amaç şu: makinelerin fiziksel dünyayı anlaması, simüle etmesi ve etkileşime girmesi. Tek bir model ailesi içinde:

  • Metin, görsel, video, ses ve action trajectory girişleri kabul edebilen.
  • Metin, görsel, video, ses ve action komutu üretebilen.
  • Dünya simülasyonu, gelecek tahmini ve embodied policy learning yapabilen.

Cosmos 3, 15 modelden oluşan bir koleksiyonun adı:

  • Cosmos3-Nano: 16B, çok modaliteli genel amaç.
  • Cosmos3-Super: 64B, çok modaliteli genel amaç.
  • Cosmos3-Nano-Policy-DROID: 16B, DROID robotik platformuna özel.
  • Cosmos3-Super-Image2Video: 64B, görüntüden video.
  • Cosmos3-Super-Text2Image: 64B, metinden görüntü — bu yazının konusu.

Cosmos3-Super-Text2Image: mimari

Modelin temel yapısı Mixture-of-Transformers (MoT): iki tamamlayıcı transformer kulesi.

  • Autoregressive transformer: Ayrık (discrete) token üretimi için — metin tarafı.
  • Diffusion transformer: Sürekli (continuous) multimodal üretim için — görsel, video, ses tarafı.

Bu birleşik mimari, heterojen modaliteleri tek bir framework içinde modellerken her modaliteye en uygun üretim mekanizmasını koruyor. Metin standart next-token autoregression ile, görsel/video/ses ise iteratif denoising ile üretiliyor.

65 milyar parametre, 2024-2026 arası toplanmış 1,3 milyar veri noktası üzerinde eğitildi — 393 farklı dataset, 767M üretim görseli, 100M Coyo700M, 340M YouTube video, 7M egocentric data dahil. Sentetik veri olarak da HiDream-I1 (15M) ve Qwen-Image-2512 (14M) görseller, Qwen3-VL ile üretilmiş 1.115M sentetik caption kullanılmış.

Input/Output spesifikasyonları

Cosmos3-Super-Text2Image’in input/output yapısı:

Input:

  • Metin: 4096 token’a kadar.
  • Çözünürlük: 256p, 480p, 720p — aspect ratio 16:9, 4:3, 1:1, 3:4, 9:16.

Output:

  • Format: JPG.
  • Çözünürlük: Input’a göre.

Modelin reasoner tarafı (Cosmos3’ün multimodal anlama bileşeni) ayrıca 256K token uzunluğunda long-context destek sunuyor. Bu, uzun teknik doküman + görsel hibrit girdileri için kayda değer.

JSON prompt “upsampling” yaklaşımı

Ideogram 4’ün de tercih ettiği yöntem burada da kritik: en iyi sonuç için düz metin prompt’u önce LLM ile yapılandırılmış JSON caption’a dönüştürülüyor. NVIDIA, bunun için Claude Opus 4.7 gibi büyük modeli arka planda kullanan bir cosmos_framework.inference.prompt_upsampling aracı sağlıyor.

Pratikte iki adım: (1) --input prompt.txt ile düz metni veriyorsunuz; (2) JSON-upsampled versiyon kaydediliyor. Sonra bu JSON, modelin gerçek girdisi oluyor.

Benchmark’lar: open-source liderlere katılıyor

Artificial Analysis Text-to-Image leaderboard’ında (Mayıs 2026 verisi) Cosmos3-Super-Text2Image açık kaynak modeller arasında üst sıralarda. Tüm modeller (kapalı kaynak dahil) sıralamasında ise GPT Image, Gemini Native Image gibi devlerin arkasında ama Qwen-Image, FLUX, HunyuanImage ile yarışıyor.

Tasarım, fotorealism ve fizik anlama tarafında Cosmos3’ün vurgusu sürekli sahnelerde tutarlılık. Modelin Physical AI odağı, robot manipülasyonu için ortam simülasyonu, otonom sürüş sahneleri için anlamlı veri üretimi gibi senaryolarda özellikle değerli.

Donanım gereksinimi: ciddi

65B parametreli bir diffusion + autoregression hibrit modeli haliyle hafif değil. NVIDIA önerilen serving konfigürasyonu 8x H100 veya benzeri:

vllm serve nvidia/Cosmos3-Super-Text2Image \
  --omni \
  --cfg-parallel-size 2 \
  --ulysses-degree 4 \
  --tensor-parallel-size 1 \
  --use-hsdp \
  --hsdp-shard-size 8

4x H200 veya 4x GB200 ile daha kompakt: --cfg-parallel-size 2 --ulysses-degree 2. Ampere, Blackwell ve Hopper mimarileri destekleniyor. Sadece BF16 precision test edilmiş; FP4, FP8, FP16 resmi olarak desteklenmiyor.

Pratikte bu, bireysel geliştiriciden ziyade kurumsal ve araştırma kullanımı için tasarlandığını gösteriyor. Diffusers desteği var ve GB200’de tek kart üzerinde de çalıştırılabiliyor.

OpenMDW 1.1 lisansı: ticarete açık

Cosmos 3 ailesi OpenMDW 1.1 lisansıyla yayınlandı — commercial ve non-commercial kullanım için hazır. Bu, NVIDIA’nın daha kısıtlayıcı non-commercial lisansa sahip LocateAnything-3B’den belirgin farkı. Yani üretim ortamına, ticari ürüne, satılan hizmete entegre edilebiliyor.

Detaylar OpenMDW 1.1 lisans metninde — standart Apache 2.0 değil ama benzer permissive yapı.

Sınırlamalar

NVIDIA dürüstçe uyarıyor: Cosmos3 zorlu senaryolarda kusurlu çıktılar üretebilir — temporal tutarsızlık, kararsız nesne hareketi, hassas fizik etkileşimi sorunları. Model açık bir fizik simülatörü içermediği için 3D geometri, 4D space-time evrimi, nesne kalıcılığı, çarpışma dinamiği ve fiziksel yasalar sadece yaklaşık olarak modelleniyor. Robotik kontrol, otonom sistemler veya güvenlik kritik planlama için ekstra validation şart.

Sonuç

Cosmos3-Super-Text2Image, NVIDIA’nın açık ağırlık image generation ekosistemine yaptığı en kapsamlı katkı. 65B parametre, MoT mimarisi, ticari lisans ve Physical AI odağı bir araya geldiğinde robotik, simülasyon ve sentetik veri üretimi için bir altyapı modeli ortaya çıkıyor.

Sıradan bir “poster üretsem mi” ihtiyacı için Ideogram 4 veya FLUX hala daha pratik. Ama büyük ölçekli sentetik dataset üretimi, robotik simülasyonu, otonom sürüş eğitim verisi gibi spesifik senaryolar için Cosmos 3’ün doldurduğu boşluk büyük.

Comments

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir