NVIDIA’dan LocateAnything-3B: Parallel Box Decoding ile 2.5 Kat Hızlı Vision-Language Grounding Modeli
NVIDIA, 26 Mayıs 2026’da yeni vision-language modelini açık kaynak olarak yayınladı: LocateAnything-3B. Eagle VLM ailesinin bir parçası olan bu model, 3 milyar parametreyle obje tespitinden GUI element bulmaya, doküman layout analizine ve OCR localization’a kadar geniş bir spektrumda “görseldeki herhangi bir şeyi konumlandırma” görevini tek modelde topluyor. Yayınlandığı ilk 12 günde Hugging Face’te 115 binin…
