Liquid AI'dan LFM2.5-8B-A1B: 128K Context, 1B Aktif Parametreyle Dizüstüde Çalışan Mixture-of-Experts Modeli

Cambridge merkezli yapay zeka şirketi Liquid AI, 28 Mayıs 2026’da LFM2.5-8B-A1B modelini duyurdu. Adındaki “A1B” eki çok şey anlatıyor: Toplam 8 milyar parametreye sahip bir Mixture-of-Experts (MoE) modeli, ama her token üretiminde sadece yaklaşık 1 milyar parametre aktif oluyor. Yani “küçük gibi davranan büyük model” mantığıyla, tüketici donanımında yani sıradan bir dizüstü bilgisayarda hatta telefonda çalışabilen, ama çok daha büyük modellerle rekabet eden bir araç.

LFM2.5, Ekim 2025’te yayınlanan LFM2-8B-A1B’nin ardılı. Aradan geçen yedi ayda Liquid ekibi modeli neredeyse her metrikte ciddi şekilde geliştirmiş. İşte ne değişti, ne işe yarıyor ve neden “edge AI” tarafında konuşulması gereken bir adım.

Edge AI ve A1B mantığı: küçük gibi davranan büyük model

Genel bir LLM eğitilirken iki rakama bakılır: total parameters (toplam parametre) ve active parameters (her token başına aktif parametre). Yoğun (dense) modellerde bu ikisi aynıdır — bir 8B Llama modeli her token üretiminde 8 milyar parametreyi de kullanır. MoE modellerde ise farklıdır: 8 milyar parametre bellekte durur ama her hesaplamada yalnızca bir alt kümesi (uzman/expert) aktif olur.

LFM2.5-8B-A1B’nin numarasındaki “A1B”, “active 1B” demek. Yani:

Bellekte: 8 milyar parametre (yaklaşık 6 GB altında sığıyor).
Hesaplamada: Her token üretiminde sadece ~1 milyar parametre çalışıyor.

Bunun pratik sonucu şu: Model 8B kalitesinde cevap üretiyor ama hesaplama maliyeti 1B’lik bir modele çok daha yakın. Edge cihazlarda (telefon, dizüstü, gömülü sistem) en kritik darboğaz CPU/GPU hesaplaması olduğu için bu yaklaşım, “küçük cihazlarda büyük model gibi konuşan” bir denklem kuruyor.

LFM2-8B-A1B’den LFM2.5’a ne değişti?

Liquid AI ekibinin yedi ayda yaptığı değişiklikler ana hatlarıyla şöyle:

1. Context penceresi 4 kat büyüdü: 32.768 token’dan 128.000 token’a çıktı. Bu, modelin uzun dokümanlar, uzun reasoning zincirleri ve uzun araç çağırma (tool calling) iz takipleri için çok daha kullanılabilir hale geldiği anlamına geliyor.

2. Pretraining 3 katından fazla arttı: 12 trilyon token’dan 38 trilyon token’a çıktı. Bu, modelin gördüğü veri çeşitliliğini ve bilgi tabanını ciddi şekilde genişletiyor.

3. Tokenizer iki katına çıktı (65K → 128K): Bu özellikle Latin alfabesi dışında yazılan diller için kritik bir değişim. Eski tokenizer Hintçe için karakter başına 0,961 token kullanıyordu — yeni tokenizer’da bu rakam 2,118’e çıktı, yani %120 verim artışı. Taylandça’da artış %238, Vietnamca’da %118, Arapça’da %39 seviyesinde. Türkçe doğrudan listede olmasa da, benzer şekilde Latin alfabesi kullanan dillerdeki iyileşme (Almanca +%4, İspanyolca +%4) çok büyük olmasa da, modelin çok dilli kapasitesi belirgin biçimde genişledi.

4. Reasoning-only mod: Selefi LFM2-8B-A1B isteğe bağlı düşünce zinciri (chain-of-thought) üretirken, LFM2.5 artık her cevap öncesinde mutlaka bir reasoning zinciri üretiyor. Liquid AI’ın gerekçesi mantıklı: MoE modeller compute-bound, yani aktif parametre sayısı azaldığı için her reasoning token’ı zaten ucuz; o halde reasoning’in faydasını her cevaba dahil et.

5. Geniş ölçekli RL: Pekiştirmeli öğrenme (reinforcement learning) ile model hem matematik hem de araç çağırma görevlerinde belirgin biçimde keskinleştirilmiş.

Benchmark’lar: rakamlar gerçekten konuşuyor

Liquid’in paylaştığı kıyaslamalardaki sıçramalar küçümsenmeyecek seviyede. LFM2-8B-A1B’ye göre LFM2.5-8B-A1B’nin gelişimi:

AA-Omniscience Indeks: -78,42 → -24,70 (+53,62 puan). Bu indeks doğru cevapları ödüllendirir, halüsinasyonu cezalandırır. Yüksek atlama.
Non-hallucination oranı: %7,46 → %63,47. 56 puanlık iyileşme; edge modellerin en kritik zayıflığı sayılan halüsinasyon konusunda büyük adım.
IFEval (talimat takibi): 79,4 → 91,8.
MATH500: 74,8 → 88,8.
AIME25: 20,0 → 42,5 (matematik olimpiyat seviyesi sorular).
BFCLv3 (function calling): 45,1 → 64,4.
Tau² Telecom: 13,6 → 88,1. Yaklaşık 74 puanlık atlayış; muhtemelen tüm tabloda en dikkat çekici sıçrama.

Daha büyük modellerle karşılaştırma

Modelin asıl iddiası şu: Sadece 1B aktif parametreyle çok daha büyük modellerle yarışabiliyor.

Birkaç çarpıcı veri:

IFEval’de LFM2.5-8B-A1B (91,84) → Gemma-4-26B-A4B (91,40). Yani Liquid’in 1B aktif modeli, Google’ın 4B aktif modeline denk.
Tau² Telecom’da LFM2.5 (88,07) → gpt-oss-20b (57,24), Qwen3-30B-A3B-Thinking (21,93). Telekom agent senaryosunda büyük farkla önde.
Non-hallucination’da LFM2.5 (63,47) → gpt-oss-20b (24,50), Gemma-4-E4B (36,06). Halüsinasyon kontrolünde sınıfının çok üstünde.
IFBench’de LFM2.5 (56,47) → gpt-oss-20b (58,65). gpt-oss biraz önde ama yarışmacı.

Matematik tarafında ise Qwen3-30B-A3B-Thinking (AIME25: 71,67) ve Gemma-4-26B (AIME25: 68,67) hâlâ önde. Yani LFM2.5 her şeyde lider değil; özellikle saf matematik akıl yürütmesinde çok daha büyük modeller daha güçlü. Ama edge cihazda araç çağırma, talimat takibi ve halüsinasyonsuz cevap istiyorsan, LFM2.5 sınıfında benzersize yakın.

Hız tarafı: dizüstüde ve telefonda gerçekten çalışıyor

Edge modelin değeri benchmark tablolarındaysa, hızı da gerçek donanımda görülmeli. Liquid’in paylaştığı rakamlar:

Apple M5 Max: 253 token/saniye decoding hızı.
AMD Ryzen AI Max+ 395: 146 token/saniye.
Telefon (mobil): Yaklaşık 30 token/saniye — pratik bir asistan için yeterli.
NVIDIA H100 SXM5 (sunucu): Yüksek eşzamanlılıkta saniyede 18.500 çıktı token’ı; tek bir H100’den günlük 1,6 milyar token üretebiliyor.

Bellek gereksinimi 6 GB’ın altında. Yani 8 GB RAM’li bir dizüstüde rahatlıkla çalışır, 16 GB’li bir Mac’te ise neredeyse arka planda hissedilmez.

İlginç teknik detaylar

Doom loop’lara karşı önlem. Uzun reasoning üreten modellerin tipik bir hatası, “Wait…” gibi yeniden başlatma kelimeleriyle aynı cümleyi tekrar tekrar üretmek. Liquid, bu davranışı tetikleyen token’ları tespit edip olasılık kütlesini başka makul alternatiflere kaydıran bir tercih optimizasyon aşaması eklemiş. RL aşamasında da bu “Wait” benzeri kelimelerin aşırı kullanımı küçük bir negatif ödülle cezalandırılmış.

Halüsinasyona karşı avg@k ödülü. Küçük parametre sayılı modeller bilgi kapasitesi olarak sınırlı; bu da halüsinasyonu artırır. Liquid, “bilmediğini bilme” davranışını ödüllendiren bir RL aşaması eklemiş. Sonuç tabloda görüldü: non-hallucination oranı %7’den %63’e çıktı.

Tokenizer’ı sıfırdan eğitmeden büyütme. Vokabüleri 65K’dan 128K’ya çıkarırken modeli baştan eğitmek yerine, mevcut tokenizer üzerine BPE merge’leri devam ettirmişler. Yeni token’ları eski sub-token’ların ortalaması olarak başlatıp kısa bir embedding-only eğitim, ardından tam model devam pretraining’i ile sonucu toparlamışlar. Maliyeti düşürmenin pratik bir örneği.

Ekosistem desteği: günden bire açık

LFM2.5-8B-A1B’nin belki en önemli pratik artısı, lansman gününden itibaren tüm büyük inference çerçevelerine entegre olması:

llama.cpp — GGUF formatında, CPU’da çalışan edge inference.
MLX — Apple Silicon (M1-M5) için optimize.
vLLM ve SGLang — GPU üzerinde yüksek hızlı sunucu inference’ı.
ONNX — Donanım bağımsız platform.
LEAP — Liquid’in kendi iOS ve Android edge deployment platformu.

Apple, AMD, Intel, Qualcomm ve NVIDIA donanım ailelerinin hepsinde çalışıyor. Açık ağırlıklı (open-weight) olarak Hugging Face’te indirilebilir durumda.

LocalCowork: pratik kullanım örneği

Liquid AI’ın açık kaynaklı LocalCowork demosu, LFM2.5-8B-A1B üzerinde çalışacak şekilde güncellendi. Demo şunu gösteriyor: tek bir dizüstü, 13 MCP sunucusu üzerinden 67 araç, bulut yok, API anahtarı yok, veri cihazdan çıkmıyor. Modele soru soruyorsun, hangi araçları çağıracağını öneriyor, onaylıyorsun, çalıştırıyor, sonucu yorumluyor, gerekiyorsa başka araç çağırıyor — tüm bu döngü her adımda bir saniyenin çok altında. Cihazın dışına hiçbir veri çıkmadan tam denetimli bir agent deneyimi.

Liquid’in stratejisinin özü bu: bulutta değil, cihazda; veri sahibinin kontrolünde; aboneliksiz. ChatGPT veya Claude’a alternatif değil, farklı bir kategoride bir araç.

Kimin işine yarar?

LFM2.5-8B-A1B’nin doğal kullanıcıları:

On-device AI uygulaması geliştiriciler. Telefonda veya dizüstüde çalışan, internete bağımlı olmayan asistan uygulaması yapacaksanız bu modelin sınıfında çok az rakibi var.

Veri hassasiyeti olan kurumlar. Hastane, hukuk firması, finans kurumu — verisini cihazdan çıkarmak istemeyen herkes. Apple Silicon’da hızlı çalışması özellikle büyük Mac filolarına sahip firmalar için ilginç.

Agentic workflow kuranlar. BFCL ve Tau² skorlarına bakılırsa, araç çağırma odaklı asistanlar için fiyat/performans çok yüksek.

Türkçe ve çok dilli içerik üretenler için kısmen. Türkçe tokenizer iyileşmesi listede yok ama Latin tabanlı diller için zaten makul performans var. Hintçe, Vietnamca, Tayca gibi Asya dilleri için ise tokenizer iyileşmesi devrim niteliğinde.

Sonuç: edge AI’ın olgunlaşma sinyali

2024-2025 dönemi büyük cloud LLM’lerin altın çağıydı. GPT-4, Claude 3.5, Gemini 1.5 gibi modeller hep daha büyük, daha çok parametreyle geldi. 2026’da farklı bir akım netleşiyor: aynı kaliteyi daha az parametreyle, daha az hesaplamayla, kullanıcının cihazında yapmak. Liquid AI’ın LFM serisi, Meta’nın küçük Llama varyantları, Google’ın Gemma 4 ailesi, Alibaba’nın Qwen küçük modelleri — hepsi aynı yöne gidiyor.

LFM2.5-8B-A1B’yi özel kılan şey ham güç değil, “benchmarkları çok daha büyük modellerle yarıştırırken edge cihazda çalışabilen” dengesi. Özellikle araç çağırma, talimat takibi ve halüsinasyon kontrolü tarafında, sınıfının önemli ölçüde önünde.

Bulut bağımsız, gizliliği koruyan, hızlı bir kişisel asistanın 2027’de standart olacağı bir senaryo gittikçe yaklaşıyor. LFM2.5, bu yolda iyi bir kilometre taşı.

Modeli denemek isteyenler için: Hugging Face üzerinden indirilebiliyor, Liquid’in playground’unda ücretsiz denenebiliyor.