Liquid AI'dan LFM2.5-230M: Şimdiye Kadarki En Küçük Modelleri Telefondan Robota Her Yerde Çalışıyor, 4 Kat Büyük Modelleri Veri Çıkarmada Geçiyor

2 milyar dolar değerlemeli MIT spin-off’u Liquid AI, “şimdiye kadarki en küçük modeli”ni yayınladı: LFM2.5-230M. 230 milyon parametreli bu açık ağırlık foundation model, sloganıyla “her yerde çalışacak” şekilde tasarlandı — Raspberry Pi 5’ten Samsung Galaxy S25 Ultra’ya, hatta Unitree insansı robotuna kadar.

Asıl iddia rakam değil oran: kendisinden 4 kat büyük modelleri belirli görevlerde geride bırakıyor. Veri çıkarma (data extraction) testlerinde Alibaba’nın 800 milyon parametreli Qwen3.5-0.8B’sini, 1 milyar parametreli Google Gemma 3 1B’yi açık ara geçiyor. Pratik anlamı: edge AI artık devasa hesaplama gücü gerektiren bir senaryo değil, doğru mimari ile cep telefonu üzerinde tam agentic iş akışı çalışabiliyor.

Bu, ailenin Mayıs’ta yayınlanan 8B-A1B MoE varyantının ardından gelen ikinci LFM2.5 sürümü. Liquid’in “hem dizüstüde MoE flagship’ı hem telefonun cebinde tek-haneli watt’la çalışan minik model” çift cephe stratejisi şekilleniyor.

230 milyon parametre nasıl bu kadar iyi?

Liquid’in farkı modelin parametre sayısı değil, mimari. Klasik Transformer yapısının dışına çıkıp kendi geliştirdiği LFM2 framework’ünü kullanıyor. Bu, gated short-range convolution katmanları ile grouped-query attention katmanlarını dönüşümlü olarak birleştiren bir hibrit yapı. Sonuç: aynı parametre sayısında, klasik dense transformer’a göre çok daha fazla “efektif kapasite”.

Bu mimari özellikle CPU üzerinde çalışırken avantaj sağlıyor. Modern Snapdragon ve ARM çekirdekleri convolution operasyonlarını dense matrix multiplication’dan çok daha verimli yapıyor. LFM2 mimarisi bu donanım gerçekliği üzerine kurulmuş.

Eğitim tarafında etkileyici bir veri var: 19 trilyon token pre-training, üzerine 32K context uzatma aşaması. Bu, modelin küçük boyutuna oranla devasa bir eğitim verisi — bilgi yoğunluğu (token-to-parameter ratio) açısından son derece yüksek.

Post-training reçetesi üç aşamadan oluşuyor:

Distillation tabanlı SFT — LFM2.5-350M büyük kardeşinden “dil bilgi” aktarımı.
Direct Preference Optimization (DPO) — insan tercihlerine hizalama.
Multi-domain reinforcement learning — tool use, instruction following, data extraction üçgeninde özel bir RL fazı.

Benchmark’lar: küçük model, büyük tablo

Liquid 10 farklı benchmark’ta sonuçları paylaştı. Öne çıkan veriler:

Benchmark	LFM2.5-230M	Qwen3.5-0.8B	Gemma 3 1B	Granite 4.0-350M
CaseReportBench (data extraction)	22.51	13.83	2.28	0.84
IFEval (talimat takip)	71.71	59.94	63.49	53.48
IFBench	38.40	22.87	20.33	15.98
Multi-IF	37.70	41.68	44.25	24.21
BFCLv3 (function calling)	43.26	35.08	16.61	39.58
BFCLv4	21.03	18.70	7.17	13.73
MMLU-Pro (genel bilgi)	20.25	37.42	14.04	12.84
GPQA Diamond (bilim)	25.41	27.41	23.89	25.91

Asıl çarpıcı sonuç CaseReportBench: tıbbi vaka raporlarından yapılandırılmış veri çıkarma testi. LFM2.5-230M’in 22.51 skoru, kendisinden 4 kat büyük Gemma 3 1B’nin 2.28’ini neredeyse 10 katı geçiyor. Bu, niche bir test değil; klinik veri pipeline’ları, faturalandırma sistemleri, sigorta raporlaması gibi gerçek dünya use case’leri için kritik.

Tool use cephesinde de (BFCLv3 ve BFCLv4) tüm rakipleri belirgin biçimde geçiyor. Yani agentic workflows için 230M’in fiziksel olarak yeterli olduğunu gösteriyor.

Genel bilgi (MMLU-Pro) tarafında ise Qwen3.5-0.8B önde — çünkü Qwen 3.5x daha fazla parametreyle daha geniş ansiklopedik bilgi taşıyor. Liquid’in açık uyarısı: matematik, kod üretimi veya yaratıcı yazım gibi reasoning-yoğun görevler için bu model uygun değil. Edge AI uzmanlığı için tasarlanmış.

Hız: Samsung S25 Ultra’da 213 tok/s

Edge model değerlendirmesi için kritik metrik benchmark skorları değil, gerçek donanımda hız. Liquid’in paylaştığı rakamlar:

Samsung Galaxy S25 Ultra (Qualcomm Snapdragon Gen4 CPU): 213 token/saniye decoding.
Raspberry Pi 5 (ARM Cortex-A76, 4 çekirdek): 42 token/saniye.
Apple M-serisi Mac’ler (MLX backend): Yüksek throughput.
NVIDIA Jetson Orin: Gömülü donanım, daha sonra detaylanacak.

Aynı sınıfta SSM hybrid (Mamba türevleri) ve Gated Delta Networks gibi alternatif mimarilerle yapılan karşılaştırmada LFM2.5-230M en yüksek prefill ve decode throughput’u veriyor — en küçük bellek ayak izi ile. Flash attention bayrağı cihaza göre ayarlı: Raspberry Pi 5’te aktif (-fa 1), Snapdragon Gen4’te kapalı (-fa 0).

Robot demo: Unitree G1 üzerinde “skill selection”

Belki en ilginç gerçek dünya kullanım demosu: Liquid ekibi LFM2.5-230M’i bir Unitree G1 insansı robotuna deploy etti. Tamamen on-device, robotun NVIDIA Jetson Orin’i üzerinde çalışıyor.

Modelin rolü “skill selection layer”: doğal dilde verilen komutu, NVIDIA’nın SONIC framework’üyle sağlanan önceden eğitilmiş düşük-seviye becerilerin bir dizisine çeviriyor.

Örnek prompt:

“2 saniye sabit dur, sonra 1 m/sn hızla 3 metre ileri yürü, 5 saniye boyunca tek-bacak öne çök, sonra 0.5 m/sn hızla 3 metre geri yürü.”

Model bu komutu yapılandırılmış çok-adımlı bir plana dönüştürüyor: zamanlanmış hedef hızla yürüme + tek-bacak kneel + tersi yürüyüş. Liquid bu davranışların bilinçli olarak basit tutulduğunu, ama 230M parametreli bir modelin insansı robotun doğal dil kontrol katmanı olarak hızlıca fine-tune edilip on-device deploy edilebileceğinin somut kanıtı olduğunu vurguluyor.

Cep telefonundan robota geçen aynı modelin aynı pipeline’ı destekleyebilmesi, edge AI’in deployment esnekliği açısından önemli bir sinyal.

Inference ekosistemi: lansman gününden tam destek

Liquid’in en güçlü taraflarından biri ürün yayını ile birlikte tüm inference framework’lerine yapılan günlük destek. LFM2.5-230M ile birlikte:

llama.cpp — GGUF checkpoint’ler, CPU edge inference.
MLX — Apple Silicon (M1-M5) optimize.
vLLM — GPU hızlandırmalı production serving.
SGLang — GPU hızlandırmalı production serving.
ONNX — cross-platform inference, çeşitli accelerator’lara.
NexaSDK — Liquid’in kendi mobile deployment SDK’sı.

Apple, AMD, Qualcomm ve NVIDIA donanım ailelerinin hepsinde native çalışıyor.

Lisans: çift kullanım (dual-use commercial)

Modelin lisansı diğer LFM modelleriyle aynı: LFM Open License. Bu pratikte şunu söylüyor:

Bireysel kullanıcılar için tamamen serbest.
Yıllık geliri $10 milyon dolar altında şirketler için ticari kullanım dahil tamamen serbest.
Yıllık geliri $10M’ı geçen kurumlar için Liquid AI ile ticari lisans anlaşması gerekiyor.
Fine-tune edilmiş türevler proprietary tutulabilir (no copyleft).
Non-profit kuruluşlar için araştırma kullanımı tamamen muaf.

Bu yaklaşım Apache 2.0 (Qwen, GLM-5.2, Mistral) ya da MIT (LongCat) gibi tam permissive lisanslara göre daha kısıtlayıcı — ama startup’lar, kişisel projeler ve KOBİ’ler için pratikte serbest. Sadece büyük kurumlar (Fortune 500 sınıfı) için lisans anlaşması zorunlu.

Kimin işine yarar?

Liquid’in hedeflediği somut use case’ler:

1. Telefon ve tablet uygulamaları. Cep telefonunda offline çalışan AI asistan, dosya parser, doküman özetleyici, otomatik form doldurma. iPhone/Android’de ses ve veri bulutuna gitmeden işlenebilir.

2. Robotik kontrol katmanı. Yukarıdaki Unitree demosunun gösterdiği gibi, robotun “ne yapacağına karar veren” doğal dil arayüzü. Endüstriyel robotlar, drone’lar, IoT cihazları için.

3. Ev otomasyon ve network device’ları. Smart home hub’ları, router’lar, NAS cihazları. Tek bir Raspberry Pi 5 üzerinde tam agent çalışabiliyor.

4. Kurumsal data extraction pipeline’ları. Tıbbi raporlar, hukuki dokümanlar, faturalar, sigorta evrakları. CaseReportBench performansı bu use case için somut.

5. Türkçe edge AI girişimleri. Türkiye’de Edge AI çözümü geliştiren startup’lar için, $10M’ın altındaki geliriyle tüm modeller serbest. Fine-tune edip Türkçe veri çıkarma veya tool-use senaryolarına özelleştirilebilir.

Açık ağırlık küçük model yarışındaki yer

Haziran 2026’da edge/küçük model manzarası:

LFM2.5-230M (Liquid AI) — Mobile edge ve tool use lideri
SmolLM 3 (Hugging Face) — 135M-1.7B Apache 2.0
Gemma 4 E2B/E4B (Google) — Encoder-free multimodal small
Phi-5 (Microsoft) — MIT lisansla reasoning-focused küçük model
Qwen 3.5-0.8B (Alibaba) — Genel bilgi yoğun küçük model
Granite 4.0-350M (IBM) — Enterprise küçük model

LFM2.5-230M’in pozisyonu net: en küçük, en hızlı, ama reasoning değil — tool use ve data extraction uzmanı. Bu specialization, “küçük model + spesifik görev” trendinin somut bir örneği. “Tek model her şeyi yapsın” değil, “her görev için en uygun model.”

Pratik kullanım

Modeli denemek isteyenler için en hızlı yol Liquid’in Playground’ı veya iOS/Android’de Liquid Apollo uygulaması.

Yerel deployment için:

Hugging Face üzerinden indirme: LiquidAI/LFM2.5-230M (post-trained) veya LiquidAI/LFM2.5-230M-Base (custom fine-tune için).
GGUF quantize: LiquidAI/LFM2.5-230M-GGUF — llama.cpp ile direkt çalışıyor.
vLLM serving: vllm serve LiquidAI/LFM2.5-230M tek satır.
MLX: mlx_lm.convert ile Apple Silicon’a quantize edilebilir.

Fine-tune için Liquid’in LEAP platformu (Liquid Edge AI Platform) iOS ve Android deployment’ı için optimize edilmiş.

Sonuç

LFM2.5-230M, “küçük model = sınırlı yetenek” eşitliğinin geçersizliğini gösteren güzel bir örnek. Doğru mimari seçimi (non-Transformer LFM2 + convolution-attention hibrit), doğru post-training reçetesi (distillation + DPO + multi-domain RL) ve doğru hedef use case’leri (tool use, data extraction, robotic skill selection) bir araya geldiğinde, 230 milyon parametre 1 milyar parametreyi geride bırakabiliyor.

Bu Liquid AI’ın somut bir avantajına dönüşüyor: cloud GPU’ya bağımlı kalmadan, kullanıcı verisini hiç buluta göndermeden, mobil cihazda tam agentic deneyim. 2026’nın geri kalanında telefon üreticileri ve robotik şirketleri için doğrudan adres olabilir.

Model bugünden itibaren Hugging Face’te — hem base hem post-trained varyantlarıyla — indirilebiliyor.