NVIDIA Cosmos3-Super-Image2Video: Tek Görselden Koherent Video, Physical AI için Açık Ağırlık

NVIDIA Cosmos 3 ailesinin video üretim üyesi Cosmos3-Super-Image2Video, tek bir giriş görüntüsünden ve metin talimatından koherent video sekansları üreten 65 milyar parametreli açık ağırlık model. 31 Mayıs 2026’da OpenMDW 1.1 lisansıyla yayınlanan model, Artificial Analysis image-to-video leaderboard’ında açık kaynak modeller arasında üst sıralarda.

Image-to-video: niye önemli?

Text-to-video modelleri (örn. Sora, Veo 2, Kling) dramatik şekilde gelişti, ama pratik kullanımda çoğu profesyonel iş akışı şu kalıba sahip:

Bir görsel oluştur veya bul (concept art, stok foto, kendi çekim).
Bu görseli video sahnesinin başlangıcına yerleştir.
Video’nun bundan sonrasını üret.

Bu, image-to-video pipeline. Çünkü görsel kompozisyonu önceden control edilebiliyor; video modelinin tüm yaratıcı yükü “hareket” ve “tutarlı continuity”e düşüyor.

Cosmos3-Super-Image2Video bu darboğazı hedefliyor: ilk frame’i veriyorsunuz, model uygun temporal devam üretiyor.

Mimari: Cosmos3 ailesinin MoT yapısı

Cosmos3 modelleri ortak bir Mixture-of-Transformers (MoT) mimarisini paylaşıyor — autoregressive transformer (discrete token için) ile diffusion transformer (continuous multimodal için) birleşimi. Image2Video varyantı bu yapıyı görsel → video dönüşümüne uyarlıyor.

Image2Video’ya özel davranışlar:

İlk frame referans görseli olarak alınıyor.
Metin promptu hareketi ve sahne devamını yönlendiriyor.
189 frame default video uzunluğu (24 fps’de ~8 saniye).
5-400 frame arasında ayarlanabilir.

Input/Output

Image2Video’nun spesifik input/output yapısı:

Input:

Image: jpg, png, jpeg, webp formatı.
Text: 4096 token’a kadar.
Çözünürlük: 256p, 480p, 720p.
Aspect ratio: 16:9, 4:3, 1:1, 3:4, 9:16.

Output:

MP4 video, input’ta belirlenen FPS’de.
İsteğe bağlı muxed audio (AAC, 48kHz stereo).
5-400 frame arası, default 189 frame.

Aynı model action conditioning destekliyor — robot kontrolü, otonom araç kamera hareketi, egocentric motion gibi senaryolarda action trajectory ile video’nun yönlendirilmesi mümkün. Bu Physical AI kullanım senaryolarının temel yapı taşı.

JSON prompt upsampling

Cosmos3 ailesinin tüm modelleri yapısal JSON prompt ile en iyi sonucu veriyor. Image2Video için typical workflow:

Düz metin prompt’u yazıyorsunuz: “The ice cream melts and gradually disappears. The camera moves around.”
Bunu Claude Opus 4.7 veya gpt-5.5 gibi VLM’e geçirip, ilk frame görselini de göstererek detaylı JSON yapısına dönüştürüyorsunuz.
Bu JSON, modelin gerçek girdisi.

NVIDIA cosmos_framework.inference.prompt_upsampling aracını veya basit standalone scripts/upsample_prompt.py scriptini sağlıyor.

Performans ve donanım

NVIDIA test ettiği donanım: GB200 ve H100. Önerilen serving konfigürasyonları:

8x H100/H200/A100: 50-step video generation ~55 saniye sürer (H200 üzerinde).
2x H200: Aynı video ~3 dakika sürer.
GB200 tek kart, Diffusers backend: ~170 saniye.

vLLM-Omni veya Hugging Face Diffusers ile çalıştırılabiliyor. Tensor parallelism ve --enable-layerwise-offload ile daha düşük bellekli GPU’larda da bir miktar performans pahasına çalıştırma mümkün.

Bu donanım skalası göz önüne alındığında Cosmos3-Super-Image2Video bireysel kullanıcılar için değil, kurumsal araştırma ve servis sağlayıcılar için optimize. Hızlı denemek için Hugging Face Spaces veya benzeri hosted environments daha pratik.

Benchmark’lar: AA leaderboard’ında üst sıralarda

Artificial Analysis Image-to-Video leaderboard (Mayıs 2026 verisi), Cosmos3-Super-Image2Video’yu açık kaynak modeller arasında lider grupta gösteriyor. Tüm modeller dahil sıralamada GPT, Veo 3 gibi proprietary devlerin arkasında ama Wan 2.1, HunyuanVideo, Kling 1.6 gibi yaygın kullanılan açık modellerle yarışıyor.

Özellikle dikkat çeken alanlar:

Temporal tutarlılık: Cosmos3’ün Physical AI vurgusu, fizik tutarlılığı tarafında klasik image2video modellerinin üzerine çıkıyor.
Action conditioning: Robot ve otonom sürüş senaryoları için niş üstünlük.
Long horizon: 400 frame’e kadar üretim için optimize.

Kullanım örnekleri

Pratik senaryolar:

Reklam ve marketing: Bir ürün fotoğrafından, ürünün döndüğü/açıldığı/kullanıldığı video reklam üretmek.

Concept art animasyonu: Çizilen veya AI ile üretilen statik karakter görselini animate etmek.

E-ticaret: Ürün fotoğraflarından 360 derece video tanıtım.

Eğitim: Tarihsel veya bilimsel görselleri animate ederek interaktif içerik üretimi.

Robotik veri augmentation: Tek bir robotik görüntüden binlerce farklı motion senaryosu üretimi.

Otonom sürüş eğitimi: Edge case sahnelerin (yaya çıkışı, beklenmedik durumlar) sentetik üretimi.

Sınırlamalar

NVIDIA dürüstçe belirtiyor: temporal tutarsızlık, kararsız kamera/nesne hareketi, hassas fizik etkileşimi sorunları, action-state drift — özellikle long-horizon ve yüksek çözünürlük çıkışlarında. Cosmos3 explicit fizik simülatörü içermiyor; 3D geometri, 4D space-time evrimi, çarpışma dinamikleri yaklaşık olarak modelleniyor. Out-of-distribution ortamlarda ve safety-critical durumlarda kalite düşüyor.

Robotik kontrol, otonom sistemler veya bilimsel simülasyon için Cosmos3 çıktıları fiziksel olarak doğru kabul edilmemeli; ek validation, dış kısıtlamalar ve sistem güvenlik analizi şart.

Sonuç

Cosmos3-Super-Image2Video, NVIDIA’nın Physical AI vizyonuyla uyumlu, açık ağırlık image-to-video alanının kayda değer yeni üyesi. 65B parametre, MoT mimarisi, action conditioning ve OpenMDW 1.1 ticari lisansı bir araya geldiğinde robotik, otonom sürüş, simülasyon ve sentetik veri pipelines için pratik bir yapı taşı oluşuyor.

Tüketici kullanımı için Wan 2.1, Kling veya LTX-Video daha pratik (donanım gereksinimi açısından); ama kurumsal Physical AI senaryoları için Cosmos3 bugün en kapsamlı açık ağırlık seçeneklerinden biri.