LLM'lerde Pruning ve MoE Modelleri: REAP ile Trilyon Parametreli Modelleri Küçültmenin Yeni Yolu

Son dönemde Hugging Face’de “REAP” ibaresi taşıyan modellerin çoğaldığını fark etmişsinizdir. Qwen3-Coder-REAP-25B-A3B, Qwen3-Coder-REAP-363B-A35B-FP8, GLM4.6-REAP… Bu modeller, klasik anlamda yeni bir mimari değil. Bunlar pruned MoE (budanmış karışım uzmanı) modelleri; yani mevcut büyük modellerden bazı uzmanların (expert’lerin) silinerek boyut olarak küçültülmüş versiyonları. LLM dünyasında pruning, artık kritik bir verimlilik tekniği haline geliyor. Peki bu tam olarak ne anlama geliyor ve REAP nasıl çalışıyor?

LLM’de Pruning Nedir?

Pruning, bir yapay sinir ağından “önemsiz” parametreleri, nöronları veya katmanları çıkararak modeli küçültme tekniğinin genel adıdır. Amaç, modelin performansını büyük ölçüde koruyarak bellek kullanımını, hesaplama maliyetini ve inference hızını iyileştirmek.

LLM’lerde pruning genelde üç farklı seviyede yapılır: weight-level pruning (tek tek ağırlıkların sıfırlanması), neuron/channel-level pruning (nöronların veya kanalların kaldırılması) ve structural pruning (katmanların veya mimari bileşenlerin bütünüyle çıkarılması).

Geleneksel yoğun (dense) LLM’lerde pruning zor bir iştir çünkü her parametre genelde modelin genel performansına katkıda bulunur. Ancak MoE modellerinde işler farklıdır; çünkü bu modellerin mimarisi zaten sparse (seyrek) bir yapıda çalışır.

MoE Mimarisi ve Pruning İçin Neden İdealdir?

MoE (Mixture of Experts, Karışım Uzmanları) mimarisinde, her transformer bloğu birden fazla “expert” (uzman) alt ağdan ve bu uzmanlar arasından seçim yapan bir “router”dan (yönlendiriciden) oluşur. Router, gelen her token için hangi uzmanların kullanılacağına karar verir. Örneğin 128 uzmanlı bir modelde her token için yalnızca 8 uzman aktive edilebilir.

Bu yapı iki önemli sonuç doğurur: birincisi, modelin toplam parametre sayısı çok büyük olsa bile her forward pass’te gerçekte kullanılan parametreler sınırlıdır (aktif parametreler). İkincisi, tüm uzmanlar VRAM’de yüklü durmak zorundadır; yani büyük MoE modellerinin bellek ayak izi çok büyüktür.

İşte burada pruning devreye girer: tüm uzmanlar eşit derecede önemli değildir. Bazı uzmanlar nadiren kullanılır, bazıları ise layer çıktısına çok küçük katkı yapar. MoE pruning’in temel fikri şu: düşük katkı sağlayan uzmanları tamamen çıkarmak.

REAP: Cerebras’ın MoE Pruning Yaklaşımı

REAP (Router-weighted Expert Activation Pruning), Cerebras Systems ve Calgary Üniversitesi araştırmacıları tarafından geliştirilen bir one-shot pruning yöntemi. “One-shot” ifadesi kritik: model yeniden eğitilmeden, tek bir geçişte küçültülüyor.

Yöntem, her uzman için bir “saliency score” (önem puanı) hesaplıyor. Bu puan iki faktörün birleşiminden oluşuyor: router gate-value‘ları (yani router’ın o uzmanı ne sıklıkta ve ne kadar güçlü seçtiği) ve expert activation norm‘ları (uzmanın çıktısının büyüklüğü). Sonuçta, layer çıktısına en az katkı yapan uzmanlar silinmeye aday olarak işaretleniyor.

REAP’in teorik katkısı da önemli: makale, uzmanları “merge etmenin” (birleştirmenin) irreducible (indirgenemez) bir hata ürettiğini kanıtlıyor. Merge edilen uzmanlar, router’ın orijinal input-bağımlı modülasyonunu koruyamıyor ve “functional subspace collapse” adı verilen bir performans kaybı yaşanıyor. Pruning ise bu sorunu yaşatmıyor çünkü router’ın kalan uzmanlar üzerindeki bağımsız kontrolünü koruyor.

REAP ile Elde Edilen Sonuçlar

REAP, 21 milyar parametreden 1 trilyon parametreye kadar altı farklı MoE modeli üzerinde test edildi: ERNIE-4.5-21B-A3B, Qwen3-30B-A3B, Mixtral-8x7B-Instruct, GLM-4.5-Air, Qwen3-Coder-480B-A35B-Instruct-FP8 ve Kimi-K2-Instruct.

Sonuçlar oldukça etkileyici. Qwen3-480B-Coder modelinde yüzde 50 compression ile:

Kodlama benchmark’larında sadece yüzde 0,2 doğruluk kaybı (neredeyse lossless)
Matematik görevlerinde yüzde 1,1 düşüş
Agentic SWE-Bench’te baseline’ın yüzde 96,7’sini koruyor
Non-agentic kodlama performansının yüzde 97,6’sını koruyor

Yaratıcı yazım gibi görevlerde ise kayıp daha belirgin (yüzde 8). Çoktan seçmeli testlerde yüzde 13’e kadar düşüş gözlenebiliyor. Yani pruning, kullanım alanına göre farklı etkiler yaratıyor; özellikle kodlama ve araç kullanımı gibi yapısal görevler, pruning’e çok daha dayanıklı.

Hugging Face’de Öne Çıkan REAP Modelleri

Cerebras, REAP ile prune edilmiş birçok modeli Hugging Face’te açık kaynaklı olarak yayınladı. Öne çıkanlar:

Qwen3-Coder-REAP-25B-A3B — Qwen3-Coder-30B’nin yüzde 20 budanmış versiyonu
Qwen3-Coder-REAP-246B-A35B-FP8 — 480B modelin prune edilmiş ve FP8 quantize edilmiş hali
Qwen3-Coder-REAP-363B-A35B-FP8 — daha az agresif bir budama
GLM-4.6-REAP, GLM-4.5-Air-REAP, Kimi-Linear-REAP, MiniMax-M2-REAP, DeepSeek-V3.2-REAP

Topluluk da işe karıştı: 0xSero/Qwen-3.5-28B-A3B-REAP ve OpenMOSE/Qwen3.5-REAP-262B-A17B gibi bağımsız geliştiricilerin ürettiği versiyonlar da mevcut.

Diğer MoE Pruning Yaklaşımları

REAP tek yöntem değil. MoE pruning alanında birkaç farklı yaklaşım mevcut:

MoE-Pruner: Ağırlık büyüklüğünü hem giriş aktivasyonları hem router ağırlıklarıyla çarparak en düşük değerli ağırlıkları buduyor. Weight-level bir yaklaşım olduğundan uzmanları tamamen silmek yerine içeriklerini seyrekleştiriyor.

Expert Skipping: Uzmanları kalıcı olarak silmek yerine inference sırasında dinamik olarak atlıyor. Hardware-friendly bir post-training tekniği.

MoE-I2: İki aşamalı bir yaklaşım: önce “inter-expert pruning” (uzmanlar arası budama), sonra “intra-expert low-rank decomposition” (uzman içi düşük rütbe ayrıştırma).

HC-SMoE ve M-SMoE: Uzmanları silmek yerine hiyerarşik olarak birleştiren (merging) yaklaşımlar. Ancak REAP makalesi, merging’in generative görevlerde daha düşük performans verdiğini gösteriyor.

Pruned Modeller Kimin İçin?

MoE pruning özellikle şu senaryolarda kritik değer sağlıyor:

Lokal inference yapanlar: 480B parametreli bir modeli FP8 ile bile 2 adet H100 GPU’ya sığdırmak zor. REAP ile yüzde 50 budanmış versiyon tek bir düğümde rahatlıkla çalışabiliyor.

Bulut inference maliyetini düşürmek isteyenler: Aynı kaliteyi koruyarak parametre sayısını yarıya indirmek, API maliyetlerini doğrudan etkiliyor.

Edge ve kurumsal dağıtım: Trilyon parametreli modelleri merkezi olmayan, sınırlı bellekli ortamlarda çalıştırmayı mümkün kılıyor.

Araştırmacılar: Büyük MoE modellerinin davranışını daha küçük ve yönetilebilir sürümlerle inceleme imkanı sağlıyor.

Sınırlar ve Riskler

Pruning’in sihirli bir çözüm olmadığını unutmamak gerekir. Özellikle yaratıcı ve açık uçlu görevlerde (creative writing, open-ended instruction following) pruning oranı arttıkça kalite kaybı belirgin hale geliyor. Benzer şekilde, çoktan seçmeli testlerde (MMLU tarzı) yüzde 13’e varan düşüşler olabiliyor.

Ayrıca prune edilmiş bir model, tam modelin ince ayar sonrasındaki nüanslarını her zaman koruyamaz. Özellikle instruction tuning sonrası nadir görülen davranışların kaybolma riski var.

Gelecek: Pruning Standart Hale Geliyor

MoE modellerinin boyutu arttıkça (şu anda 1 trilyon parametreli modeller standart), pruning bir “opsiyon” olmaktan çıkıp bir “zorunluluk” haline geliyor. REAP ile birlikte Cerebras, Qwen, DeepSeek ve GLM gibi büyük MoE ailelerinin pruned versiyonlarını paralel olarak yayınlamanın pratik olduğunu gösterdi.

Yakın gelecekte her büyük MoE modelinin “coder” ve “general” versiyonları gibi, “full” ve “pruned” versiyonlarının da standart olarak sunulması muhtemel. EAGLE3 gibi speculative decoding teknikleriyle birleştirildiğinde, lokal AI dünyasında performans/maliyet dengesini ciddi biçimde değiştiren bir dönem başlıyor.

Hugging Face’de gördüğünüz “REAP” etiketli modeller işte bu yeni paradigmanın ilk somut ürünleri. Kendi donanımınıza uygun bir MoE modeli arıyorsanız, pruned versiyonları mutlaka denemelisiniz.

LLM’lerde Pruning ve MoE Modelleri: REAP ile Trilyon Parametreli Modelleri Küçültmenin Yeni Yolu