Google'dan Magenta RealTime 2: Açık Ağırlık Canlı Müzik Üretim Modeli, 200ms Gecikmeyle

Google DeepMind, açık ağırlık müzik üretim modeli serisinin yeni versiyonunu yayınladı: Magenta RealTime 2. Önceki Magenta RealTime ve Lyria RealTime API’sinin halefi olan bu model, on-device streaming müzik üretimi yapabilen, çok düşük gecikme (~200ms) ile gerçek zamanlı kontrol edilebilen, türünün yegane açık ağırlık modeli.

Live music model konsepti

Klasik müzik üretim modelleri (MusicGen, MusicLM gibi) toplu üretim modeli: bir prompt veriyorsunuz, 30 saniyelik bir parça üretiyor, bitiyor. Magenta RT 2 farklı bir paradigma kullanıyor: continuous streaming generation. Müzik kesintisiz akıyor; siz live performans sırasında prompt, audio context veya MIDI değiştiriyorsunuz, model anında reaksiyon veriyor.

Bunun yaratıcı sonuçları net: bir DJ canlı performans sırasında modeli müzikle birlikte sürüyor; bir oyun geliştirici oyuncunun aksiyonlarına real-time tepki veren soundtrack kuruyor; engelleri olan biri stylized embeddings veya audio prompt ile communal jam session’a katılabiliyor.

Üç bileşenli sistem

Magenta RT 2, üç parçalı bir mimari kullanıyor:

1. SpectroStream — Discrete audio codec. Stereo 48kHz audio’yu 25Hz frame rate, 64 RVQ depth, 10-bit kod ile token’a çeviriyor. Toplam bit-rate ~16kbps.

2. MusicCoCa — Müzik audio ve text’i ortak embedding space’e embed eden contrastive-trained model. CoCa ve MuLan paper’larından gelişiyor. Çıkış: 768 boyutlu embedding, 12 RVQ depth’e quantize.

3. Decoder-only Transformer LLM — Asıl üretim modeli. Context audio token, MusicCoCa embedding ve MIDI token alıp, sonraki frame’in audio token’larını üretiyor.

LLM’in iki konfigürasyonu var:

Base: 2,4 milyar parametre, 20 katman, 25 frame (1s) windowed attention per layer, 20 saniye effective receptive field.
Small: 230 milyon parametre, 12 katman, 41 frame (~1,6s) windowed attention, 20 saniye effective receptive field.

Magenta RT 1’den en önemli fark: önceki versiyon chunk-wise üretim yaparken, RT 2 frame-wise autoregression kullanıyor. Yani daha düşük gecikme, daha küçük frame-level control.

Giriş ve çıkış

Her timestep’te model şu girdileri alıyor:

Context audio: Önceki SpectroStream token’ları (son 20 saniyelik bağlam).
Style: 12 MusicCoCa token (metin promptu “heavy metal” veya bir audio referansından gelir).
MIDI: 128 boyutlu multihot vector. Her MIDI pitch için: 0=Off, 1=Sustain, 2=Onset, 3=Sustain+Onset.

Çıkış: 1 üretilen frame, 12 RVQ token.

MIDI input desteği özellikle ilginç — klavye, drum machine veya MIDI controller ile modeli “çalmak” mümkün, model bu MIDI girdisine uygun audio üretiyor. Bir nevi “AI session musician”.

Eğitim verisi ve performans

Magenta RT 2, çoğunlukla enstrümantal olan 71.000 saatlik stok müzik üzerinde eğitildi. TPU’larda JAX ve Sequence Layers ile eğitildi.

Performans olarak temel metrik: ~200ms gecikme. Yani siz bir prompt veya stil değişikliği yaptığınızda model 200ms içinde tepki vermeye başlıyor. Bu, müzik için pratik gerçek-zamanlı kabul edilen seviye (insan tepki süresi ~150-250ms).

Modelin known limitations bölümü açıkça yazıyor: genre coverage sınırlı (training data ağırlıklı stok müzik), vocal generation sınırlı (eğitim ağırlıklı instrumental). Ama Google’ın belirtiği “real-time continuous musical audio generation with low latency control” nichesinde rakipsiz.

Lisans: Apache 2.0 + CC-BY-4.0

Magenta RT 2 hibrit bir lisans kullanıyor:

Codebase: Apache 2.0 (GitHub’daki magenta-realtime repo).
Model weights: CC-BY-4.0 (Hugging Face’teki ağırlıklar).

CC-BY-4.0, ticari kullanıma açık ama attribution gerektiren bir lisans. Google ek olarak şunları belirtiyor:

Üretilen çıktılarda Google hiçbir hak iddia etmiyor.
Çıktıların telif hakkı ihlali yapmaması kullanıcı sorumluluğunda.
Çıktılar ve sonraki kullanımları tamamen kullanıcıya ait.

Bu konumlanma açık ağırlık müzik modelinin ticari ve sanatsal kullanımına yeşil ışık veriyor.

Pratik kullanım senaryoları

Google’ın belirttiği başlıca kullanım alanları:

Interactive Music Creation:

Canlı performans/improvisation.
Accessible müzik yapma (engellilere yönelik).
Video oyunları — oyuncunun aksiyonlarına real-time soundtrack.

Research:

MusicCoCa ve Magenta RT 2’den transfer learning ile müzik tanıma.

Personalization:

Müzisyenler kendi kataloglarıyla fine-tune edebilir (fine-tune desteği yakında).

Education:

Doğal dil prompt’u ile farklı türleri keşfetme, müzikal kavramları öğrenme.

Sanat dünyası için ne anlama geliyor?

Live müzik AI modeli kavramı 2024 boyunca Google’ın Lyria RealTime API’sıyla kapalı kaynak olarak vardı. Magenta RT 2 bu kapasiteyi açık ağırlık olarak veriyor. Sanatsal sonuç:

Canlı elektronik müzik performansında AI bir “jam partner” olarak konuşlandırılabilir.
Streaming live oyun soundtrack’leri gerçeklik kazanabilir.
Müzik terapi, eğitim ve accessibility uygulamaları için yeni platform.

Bu, müzik üretiminin “batch generation” modelinden “interactive co-creation” modeline geçişinin ilk açık ağırlık örneği. Tipik metafor: önce metin yazmaktan “Google Docs ile birlikte yazmaya” geçtik; şimdi müzikte de benzer şey oluyor.

Sonraki adım

Modeli denemek isteyenler için: Get Started sayfası ve GitHub repository üzerinden erişim. Modeli indirmek için Hugging Face’te kullanım koşullarını kabul etmek gerekiyor (modeller gated).

Fine-tune desteği henüz yok “coming soon” etiketiyle belirtilmiş. Bu eklendiğinde müzisyenlerin kendi katalogları üzerinde modeli özelleştirmeleri mümkün olacak.

Sonuç

Magenta RealTime 2, açık ağırlık müzik üretim ekosisteminde sınıfının türünde tek model. Düşük gecikmeli, sürekli akan, MIDI ile kontrol edilebilen, hem text hem audio prompt’a tepki veren bir live music model. Apache 2.0 + CC-BY-4.0 hibrit lisansıyla ticari kullanıma açık.

2,4B base konfigürasyonu modern bir GPU’da rahat çalışabilir; 230M small konfigürasyonu ise mobil cihazlarda, tabletlerde, hatta gömülü sistemlerde live performans için ideal. Müzik teknolojisi geleceği için kayda değer bir kilometre taşı.