NVIDIA'dan LocateAnything-3B: Parallel Box Decoding ile 2.5 Kat Hızlı Vision-Language Grounding Modeli

NVIDIA, 26 Mayıs 2026’da yeni vision-language modelini açık kaynak olarak yayınladı: LocateAnything-3B. Eagle VLM ailesinin bir parçası olan bu model, 3 milyar parametreyle obje tespitinden GUI element bulmaya, doküman layout analizine ve OCR localization’a kadar geniş bir spektrumda “görseldeki herhangi bir şeyi konumlandırma” görevini tek modelde topluyor. Yayınlandığı ilk 12 günde Hugging Face’te 115 binin üzerinde indirme aldı — sınıfında bir patlama.

Model neden bu kadar dikkat çekti?

LocateAnything’in iddiası, klasik VLM’lerin grounding (görsel konumlandırma) tarafındaki en büyük performans darboğazını çözmesi: autoregressive box decoding. Standart VLM’ler bir bounding box koordinatını token token üretiyor — önce x1, sonra y1, sonra x2, sonra y2 — ve her token öncekine koşullu olduğu için seri olarak çalışıyor.

LocateAnything bu yaklaşımı atıp Parallel Box Decoding (PBD) diye yeni bir yöntem öneriyor: bütün bbox koordinatları tek bir paralel adımda tahmin ediliyor. Geometrik tutarlılık korunurken inference hızı 2,5 kata kadar artıyor.

NVIDIA bu modeli kendi production sistemlerinde de kullanıyor — Nemotron 3 Nano Omni gibi frontier vision-language modellerinde grounding, GUI understanding ve agentic capability tarafında entegre.

Teknik özellikler

LocateAnything-3B mimari yönden Qwen ve Kimi ekosistemini birleştiren ilginç bir Frankenstein:

Vision encoder: MoonViT-SO-400M — MIT lisanslı, Kimi’nin geliştirdiği vision transformer.
Language model: Qwen2.5-3B-Instruct — Alibaba’nın Qwen Research License’ı altında.
Projector: MLP tabanlı multimodal projektör.
Output: Block-based structured coordinate token üretimi.
Parametre: 3B (toplam model 4B civarı vision encoder dahil).
Eğitim verisi: 12 milyon görsel, 138 milyon sorgu, 785 milyon bounding box.
Çözünürlük: 2.5K’ya kadar.
Prompt uzunluğu: 24K token’a kadar.
Lisans: NVIDIA Non-Commercial License — sadece akademik ve araştırma kullanımı; ticari kullanım yasak.

Eğitim, dört aşamalı bir pipeline: önce captioning/VQA/OCR ile multimodal bilgi adaptasyonu, sonra grounding ve dense-scene localization fine-tune’ı.

Parallel Box Decoding nasıl çalışıyor?

Klasik grounding LLM’leri her bbox için sıralı 4 koordinat token’ı üretir. 100 obje ararsanız 400 sıralı çıkış adımı gerekir. PBD bunun yerine modeli “block-wise multi-token prediction” ile eğitiyor — tek bir paralel block içinde semantic label + box coordinates + negative samples + end signal hep birden tahmin ediliyor.

Block uzunluğu sabit (6 pozisyon): semantik etiket, koordinatlar, negatif örnekler ve bitiş işareti. Kullanılmayan pozisyonlar <null> ile dolduruluyor. Model üç farklı modda çalışabiliyor:

Fast mode (MTP only): Her şey paralel, basit sahnelerde en hızlı.
Slow mode (autoregressive): Klasik token-by-token, en güvenilir.
Hybrid mode (default): Paralel ile başlar, format düzensizliği veya spatial belirsizlik olunca autoregressive’e döner, box sınırından sonra yeniden paralele geçer.

Hybrid mode hız + kalite dengesi açısından önerilen tercih.

Desteklenen görevler

Tek modelle yapılabilenler:

Object detection: Klasik kategori tabanlı obje tespiti.
Phrase grounding: “Kırmızı tişörtlü insanlar” gibi serbest metin ile obje konumlandırma.
Referring expression grounding: Tek bir spesifik objeyi tanımlama.
Scene text detection: Görseldeki tüm metni kutu olarak bulma.
Text grounding: Belirli metni konumlandırma.
Document layout analysis: PDF, doküman üzerinde başlık/paragraf/şekil/tablo gibi yapısal elementleri lokalize etme.
GUI element grounding: Arayüz ekran görüntüsünde “arama butonu”, “menü” gibi elementleri kutu veya nokta olarak bulma.
Pointing: Tek bir noktaya işaret etme.

Bu görevlerin her biri için ayrı bir prompt template var. NVIDIA, kod örneklerinde temiz bir LocateAnythingWorker sınıfı paylaşmış; FastAPI veya Triton servisine entegre etmek kolay.

Kullanım örnekleri

Object detection ve dense scenes’de güçlü; kalabalık bir caddede 50+ obje tespiti, robotic perception, autonomous driving senaryoları için optimize. GUI grounding tarafında ScreenSpot-Pro benchmark’ında güçlü performans veriyor — bu da Claude Code ve OpenClaw gibi agent framework’lerine entegre edilirken ekran navigasyonu yetkinliği sağlar.

Pratik kullanım örnekleri:

Robotics: Robot kolun manipüle edeceği nesnenin konumunu sözel komuttan tespit etme.
Otonom sürüş: “Sağdaki kırmızı park halindeki araba” gibi referring expression’ı kutuya çevirme.
Endüstriyel inceleme: Üretim hattında belirli kusur tipini tespit.
Doküman işleme: PDF’den tablo, başlık, şekil çıkarmak.
GUI test otomasyonu: “Login butonuna tıkla” komutunu screenshot üzerinde koordinata çevirme.
Veri etiketleme: Mevcut datasetleri otomatik annotate etmek.

Donanım ve hız

Test edilen donanım H100; Ampere (A100), Hopper (H100), Lovelace (RTX 4090, L40) ve Blackwell ailesinde çalışıyor. Hopper ve Blackwell’de MagiAttention adlı optimize attention implementation’ı kullanılıyor — MTP block-diffusion attention için hızlandırılmış. Kurulu değilse PyTorch SDPA’ya fallback yapıyor, çalışır ama biraz yavaş.

BF16 precision ve KV cache ile inference standart; TensorRT, TensorRT-LLM ve Triton henüz desteklenmiyor ama NVIDIA Thor gibi embedded platformlarda quantization ve distillation ile çalıştırma mümkün.

Lisans uyarısı

Modelin lisansı NVIDIA Non-Commercial License altında. Bu, ticari deployment, ürüne entegrasyon veya satış için kullanılamayacağı anlamına geliyor — akademik araştırma, kişisel projeler ve non-profit kullanım serbest. Ticari deployment için NVIDIA’nın paid enterprise version’ı veya benzer NVIDIA modelleriyle anlaşma gerekiyor.

Açık ağırlık ekosistemindeki Apache 2.0 trendiyle karşılaştırıldığında bu daha kapalı bir konumlanma. Anlaşılır da: NVIDIA kendi Nemotron production modelinde bu mimarisi kullanıyor, ticari değer yarattığı için tamamen serbest bırakmak istemiyor.

Eagle ailesinin bir parçası

LocateAnything, NVIDIA’nın açık kaynak vision-language model serisi Eagle VLM’in bir üyesi. Bu seri 2025 boyunca data-centric training stratejileriyle geliştirildi; HD görsel ve uzun video input’u destekliyor. LocateAnything aileye özel olarak grounding tarafında uzmanlaşan üye.

NVIDIA’nın bu adımı, vision foundation model alanında Google (Gemma 4), Alibaba (Qwen3-VL), Mistral (Pixtral) gibi rakiplere karşı “biz de açık kaynak verme oyununun içindeyiz, ama ticari hakları saklı tutuyoruz” mesajı veriyor.

Sonuç

LocateAnything-3B, vision-language grounding alanında inference hızı ve görev çeşitliliği açısından sınıfının önde gelen modellerinden biri. Parallel Box Decoding mimari yeniliği gerçek bir performans artışı sağlıyor; tek modelle 8+ farklı grounding görevini handle etmek pratik deployment’ı kolaylaştırıyor.

Tek pürüz non-commercial lisans. Ama araştırmacılar, robotik geliştiricileri, GUI agent çerçeveleri geliştirenler ve doküman işleme pipeline’ları kuranlar için bugün açık ağırlık dünyasında bu kadar geniş ve hızlı bir grounding modeli için başka bir alternatif neredeyse yok.

İlk 12 günde 115K+ indirme aldığı düşünülürse, NVIDIA bu modelle ekosistemde geçen yıl Kimi-VL ve Qwen-VL’nin yarattığı dalgaya kendi cevabını vermiş durumda.