Meituan'dan LongCat-Video-Avatar 1.5: MIT Lisanslı Audio-Driven Dijital İnsan Video Üretimi

Çin’in en büyük gıda teslimat ve hizmet platformlarından Meituan, AI iştiraki LongCat aracılığıyla audio-driven digital insan video üretimi alanında yeni bir versiyonu açık kaynak yaptı: LongCat-Video-Avatar-1.5. MIT lisanslı, ses kaydından gerçekçi insan video’su üreten bu model, lip-sync kalitesinden multi-person interaction’a kadar production-grade bir avatar üretim çerçevesi sunuyor.

Avatar üretimi neden bu kadar zor?

Bir insanın ses kaydından, onun konuşan video’sunu üretmek — deepfake teknolojisinin ticari olarak en talep edilen versiyonu. Use case’leri:

Haber sunucusu / digital anchor.
E-ticaret pazarlaması (avatar ile ürün anlatımı).
Eğitim videoları (instructor avatar).
Müşteri hizmetleri (chatbot avatar).
Kişiselleştirilmiş video mesaj üretimi.

Teknolojinin zorlukları çok katmanlı: Doğru lip-sync (sesin sayfa hareketleriyle senkronizasyonu), full-body temporal stability (eller, vücut, arka plan tutarlı kalsın), kimlik tutarlılığı (yüz değişmesin), uzun video’da artifakt birikimi, multi-person interaction (iki kişinin konuşması).

LongCat-Video-Avatar 1.5 bu sorunların hepsini production-ready kalitede çözdüğünü iddia ediyor.

1.5 sürümünde ne değişti?

LongCat-Video-Avatar 1.5, önceki 1.0 sürümünün üzerine dört temel iyileştirme getiriyor:

1. Whisper-Large audio encoder. Önceki sürümde Wav2Vec2 kullanılıyordu; 1.5’te Whisper-Large’a geçilmiş. Sonuç: belirgin biçimde daha pürüzsüz ve doğal dudak hareketleri. Whisper’ın çok dilli desteği, modelin Çince ve İngilizce’nin yanı sıra diğer dillere de uyum potansiyelini açıyor.

2. Production-ready stability. Lip-sync doğruluğu, full-body temporal tutarlılık ve uzun video üretiminde sıkı kimlik tutarlılığı. Yani 10 saniyelik bir videonun her frame’inde aynı kişi konuşuyor, eller doğal hareket ediyor, arka plan tutarlı.

3. Stylized domain generalization. Sadece foto-realistik insanlar değil — anime karakterleri, hayvanlar, çok kişili etkileşimler, nesne tutma gibi karmaşık senaryolar.

4. Efficient 8-step inference. DMD2 tabanlı step distillation ile inference 8 NFE’ye düşmüş. Bu, modeli ekonomik servis ederken kaliteyi koruma anlamına geliyor.

Üç görev modu

LongCat-Video-Avatar 1.5, üç farklı görev için optimize edilmiş:

AT2V (Audio-Text-to-Video): Sadece ses + metin tariften video üretimi.
ATI2V (Audio-Text-Image-to-Video): Ses + metin + referans görsel (avatar fotoğrafı).
Video Continuation: Mevcut bir avatar videosunu devam ettirme — uzun video parçaları üretmek için.

Single-stream (tek kişi) ve multi-stream (çok kişi) audio input destekliyor. Multi-person için iki mod var:

Merge mode (para): İki audio clip aynı uzunlukta, birleştirilerek — iki kişi aynı anda konuşuyor.
Concatenation mode (add): Audio clip’ler ardışık — önce person 1, sonra person 2.

Pratik uygulama senaryoları

Meituan’ın model card’ında belirttiği senaryolar:

Haber yayını / sunum.
Drama ve oyunculuk.
Şarkı söyleme.
E-ticaret pazarlama.
Çok kişili konuşma sahneleri.
Animasyon karakterleri.
Hayvan karakterleri.

Bu liste, LongCat’in modelini sınıflandırması açısından ilginç: birinin avatar olarak konuşmasından, animasyon karakterlerinin lip-sync’ine kadar geniş bir spektrum.

Human evaluation sonuçları

LongCat ekibi, audio-driven digital insan üretim için özel bir human evaluation benchmark’ı geliştirmiş:

6 uygulama senaryosu: Haber, Eğitim, Günlük yaşam, Eğlence, Şarkı, Ticari Promosyon.
2 dil: Çince + İngilizce.
2 görsel stil: Realistic + Animated.
Toplam 508 görsel-ses kaynak çifti.

İki paralel değerlendirme: (1) Subjective Track, 770 crowdsourced değerlendirici 1-5 ölçeğinde insan-benzerliği puanladı, toplam 13.240 yargı. (2) Objective Track, 10 alan uzmanı 4 boyutta yapısal kalite analizi yaptı: Physical Rationality, Audio-Visual Harmony, Temporal Stability, Identity Consistency.

Sonuçlar, model card’ında paylaşılan grafiklerde, modelin lider ticari rakipler ile (DreamAvatar, Hedra gibi kapalı kaynak servisler) yarışan kalite çıkardığını gösteriyor.

Mimari ve donanım

Model, LongCat-Video foundation modeli üzerine inşa edilmiş. Bu temel model, Wan ailesinden ilham alıyor; UMT5-XXL ile metin encoding kullanıyor.

Donanım gereksinimi:

FlashAttention-2 default (FlashAttention-3 veya xformers alternatif).
Multi-GPU inference: --nproc_per_node=2 --context_parallel_size=2 standart konfigürasyon.
INT8 quantization desteği var (--use_int8) — daha düşük VRAM kullanımı.
480p ve 720p destekli.

Distillation modu (--use_distill) ile 8 adım inference yapılıyor — saniyeler içinde kısa video üretimi.

MIT lisansı: tamamen serbest

LongCat-Video-Avatar-1.5’in tüm model ağırlıkları MIT License altında yayınlandı — açık ağırlık ekosistemindeki en permissive lisanslardan. Apache 2.0’dan bile daha esnek; commercial use, modification, distribution, sublicensing — hepsi serbest. Tek şart attribution copyright notice korunması.

Bu, Çin AI ekosisteminden çıkan modellerin son zamanlarda eğilim gösterdiği permissive lisans trendi ile uyumlu — StepFun Step 3.7 Flash (Apache 2.0), Qwen 3.5 (Apache 2.0), Hunyuan modelleri, ve şimdi LongCat-Video-Avatar-1.5 (MIT).

Etik kullanım sorumluluğu

Audio-driven avatar generation, deepfake kapsamında değerlendirilen ve etik açıdan hassas bir alan. Meituan’ın model card’ı şu uyarıları yapıyor: model her downstream uygulama için kapsamlı değerlendirilmemiş; developerlar performans varyasyonları (özellikle farklı diller arasında), doğruluk, güvenlik ve adalet konularını dikkatlice değerlendirmeli.

Yasal sorumluluk açıkça developer/end-user’a yükleniyor: data protection, privacy ve content safety gereklilikleri kullanıcının sorumluluğunda.

Pratik açıdan: bu modeli ticari ürüne entegre etmeden önce, hedef ülke/bölge mevzuatına uygunluk, watermarking, consent management ve abuse detection mekanizmalarının uygulanması şart.

Çince + İngilizce — ya Türkçe?

Model card’ında belirtilen iki dil Çince ve İngilizce. Whisper-Large encoder’ının çok dilli yetkinliği göz önüne alındığında Türkçe ses ile de teorik olarak çalışabilir — ama lip-sync doğruluğu eğitim verisi distribution’una bağlı. Pratik test gerekli.

Türk içerik üreticileri, e-ticaret işletmeleri ve eğitim platformları için bu önemli bir test. Eğer Türkçe ses iyi sonuç veriyorsa, low-cost Türkçe digital insan üretimi için ilk açık ağırlık çözüm olacak.

Sonuç

LongCat-Video-Avatar 1.5, audio-driven avatar üretiminde production-grade kalite vaat eden ilk MIT lisanslı açık ağırlık model. Whisper-Large encoder, 8-step distilled inference, multi-person desteği ve geniş senaryo kapsamı bir araya geldiğinde Çin pazarındaki Heygen, Sad Talker, Hedra gibi ticari servislere açık ağırlık alternatifi oluşturuyor.

Modelin Hugging Face Spaces üzerinde 18+ aktif demo bulunuyor — toplulukla hızla entegre ediliyor. İçerik üreticileri, eğitim platformları ve agentic experiences kuran geliştiriciler için kayda değer bir yeni kapı.

Etik sorumluluk tarafında, deepfake teknolojilerinin yarattığı klasik soruları yeniden gündeme getiriyor: izin, watermarking ve abuse mitigation. Açık ağırlık ekosistemi bu konularda kendi standartlarını oluşturmaya devam ediyor.