FARA-7B: Bilgisayarı Kullanan Küçük Ama Güçlü Bir AI Aracı

FARA-7B, Microsoft’un geliştirdiği, sadece 7 milyar parametreli (yani küçük boyutlu) bir dil modeli. Ama sıradan bir AI değil; bilgisayar arayüzleriyle (fare, klavye gibi) etkileşime girerek web’de görevler yapabiliyor. Örneğin:

  • Form doldurmak,
  • Bilgi aramak,
  • Seyahat rezervasyonu yapmak,
  • Hesap yönetmek.

Amaç? Günlük işleri otomatikleştirmek. Üstelik cihazınızda (örneğin Windows 11’li Copilot+ PC’lerde) doğrudan çalışabiliyor. Bu sayede veri dışarı sızmıyor, gecikme az, gizlilik yüksek. Microsoft bunu “açık kaynak” olarak yayınladı (MIT lisansı altında), yani herkes deneyebilir, geliştirebilir.

Nasıl Çalışıyor? (Basitçe Anlatalım)

Model, ekran görüntülerini (screenshot) “görerek” web sayfalarını anlıyor. Ayrı bir araç kullanmadan, fare tıklaması, yazma veya kaydırma gibi eylemler yapıyor. Adım adım şöyle:

  1. Gözlem: Ekran görüntüsünü ve geçmiş eylemleri inceliyor.
  2. Düşünme: “Şimdi ne yapmalıyım?” diye akıl yürütüyor (kısa bir mesaj üretiyor).
  3. Eylem: Koordinatlara tıklama, yazma veya araç çağırma (örneğin web araması) gibi komutlar veriyor.

Eğitimi için sentetik veri (yapay yollarla üretilmiş) kullandı. Birden fazla AI ajansının (Magentic-One tabanlı) işbirliğiyle, gerçek web sitelerinden 145 bin görev senaryosu yarattılar. İnsan denetimi olmadan, ama çok kaliteli. Sonuç? Tek bir modelde karmaşık işleri hallediyor.

Neler Yapabiliyor? (Örnekler)

  • Bir Xbox kumanda siparişi verirken sepete ekliyor, ödeme sayfasında durup sizden onay istiyor.
  • GitHub’da bir sorunu özetliyor.
  • Bing Haritaları’yla sürüş süresi hesaplıyor veya yakındaki restoran arıyor.
  • Fiyat karşılaştırması yapıyor (örneğin alışveriş sitelerinde).

Güvenlik için: Tehlikeli işleri reddediyor (%82 oranında), kritik noktalarda (para transferi gibi) durup onay bekliyor. Log tutuyor, denetlenebilir.

Performansı Nasıl? (Karşılaştırmalar)

Küçük boyutuyla büyük rakiplerini eziyor! İşte bazı benchmark’lar (başarı oranları):

  • WebVoyager: %73.5 (UI-TARS gibi modellerden üstün).
  • Online-Mind2Web: %34.1.
  • DeepShop: %26.2.
  • Yeni bir test olan WebTailBench: %38.4 (bilet rezervasyonu gibi gerçekçi görevlerde).

GPT-4o gibi dev modellerle bile yarışıyor, ama daha az adımda (ortalama 16 adım vs. 41) ve daha ucuza bitiriyor. Tabii kusursuz değil: Karmaşık görevlerde hata yapabiliyor, talimatı yanlış anlayabiliyor.

Gelecekte Ne İşe Yarayacak?

  • Günlük Hayat: İş ilanları ara, ev fiyatı karşılaştır, etkinlik bileti al.
  • Kişisel Yardımcı: Cihazında çalışan, gizli bir asistan.
  • Geliştiriciler İçin: Açık kaynak olduğu için, yeni ajanlar (AI ajanları) inşa etmek için temel.

Yazarlar diyor ki: “FARA-7B, cihaz tabanlı bilgisayar kullanım ajanlarının sınır modellerin yeteneklerine yaklaştığını gösteriyor.” Ve “Şeffaflık ve kullanıcı kontrolü, tasarımın kalbinde.”

Comments

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir