LLM’lerde Pruning ve MoE Modelleri: REAP ile Trilyon Parametreli Modelleri Küçültmenin Yeni Yolu
Son dönemde Hugging Face’de “REAP” ibaresi taşıyan modellerin çoğaldığını fark etmişsinizdir. Qwen3-Coder-REAP-25B-A3B, Qwen3-Coder-REAP-363B-A35B-FP8, GLM4.6-REAP… Bu modeller, klasik anlamda yeni bir mimari değil. Bunlar pruned MoE (budanmış karışım uzmanı) modelleri; yani mevcut büyük modellerden bazı uzmanların (expert’lerin) silinerek boyut olarak küçültülmüş versiyonları. LLM dünyasında pruning, artık kritik bir verimlilik tekniği haline geliyor. Peki bu tam olarak
