Sapient Intelligence'tan HRM-Text-1B: Beyin Esinli İki Modüllü Recurrent Mimari Dil Modeline Geldi

Singapur merkezli AGI araştırma şirketi Sapient Intelligence, geçen yaz dikkat çeken Hierarchical Reasoning Model (HRM) mimarisini bu kez 1 milyar parametreli bir dil modeline taşıdı: HRM-Text-1B. Apache 2.0 lisanslı, sıfırdan eğitilmiş ve transformer mimarisinde alışılmadık bir yaklaşım deneyen bu model, açık ağırlık ekosistemindeki “yeniden tasarlanmış akıl yürütme” deneylerinin son halkalarından biri.

Sapient ve HRM’in ön hikayesi

HRM Temmuz 2025’te ilk açıklandığında yapay zeka topluluğunu şaşırtmıştı. Sadece 27 milyon parametre ile, sadece 1.000 örnek üzerinde, herhangi bir pretraining olmadan eğitilen orijinal HRM modeli, Abstraction and Reasoning Corpus (ARC) AGI Challenge benchmark’ında %40,3 skor aldı. Aynı testte OpenAI’ın o3-mini-high modeli %34,5, Claude 3.7 (8K context) ise %21,2 alıyordu.

Yani 27 milyon parametreli bir model, soyut akıl yürütme görevlerinde milyarlarca parametreli akıl yürütme modellerini geçti. Karmaşık Sudoku ve 30×30 labirent çözmede ise mevcut chain-of-thought (CoT) yaklaşımlarının başaramadığı şekilde neredeyse mükemmel sonuç verdi.

Bu sonuçların arkasındaki fikir, insan beyninin hiyerarşik ve çok-zaman-ölçekli işleme yapısını taklit etmek. HRM-Text-1B, bu mimariyi dil modellemeye uyguluyor.

HRM mimarisi: iki transformer’ın dansı

HRM’in standart transformer’dan farkı, tek bir derin yığın yerine iki paralel transformer modülü kullanması:

H modülü (High-level, yavaş): Soyut, üst seviye planlama yapan kısım. İnsan beyninde “System 2” düşünmeye karşılık gelen yavaş, deliberatif süreçlerin metaforu.
L modülü (Low-level, hızlı): Hızlı, detaylı hesaplama yapan kısım. “System 1” otomatik düşünmeye karşılık geliyor.

İki modül, aynı input embeddings üzerinde tekrarlı olarak çalışıyor. Çalışma şu şekilde:

z_H = embed(input_ids) * embedding_scale
z_L = z_L_init.expand_as(z_H)

for _ in range(H_cycles):
    for _ in range(L_cycles):
        z_L = L_module(z_L + z_H)
    z_H = H_module(z_H + z_L)
return z_H

HRM-Text-1B’de H_cycles × L_cycles = 2 × 3, yani toplam 2 dış döngü ve her birinde 3 iç döngü çalışıyor. Bu yapının ana iddiası şu: parametre sayısı sabit kalsa bile, hesaplama derinliği döngü sayısı ile keyfi olarak artırılabiliyor. Yani 1 milyar parametre, klasik 1B dense modelden çok daha fazla “effective compute” uygulayabiliyor.

Beyinde de benzer bir yapı var: prefrontal korteks yavaş, soyut planlama yaparken; daha alt korteks bölgeleri hızlı, otomatik hesaplama yapıyor ve aralarında sürekli ileri-geri sinyal akışı oluyor. HRM bu motifin transformer versiyonu.

Teknik özellikler

Parametre: ~1 milyar.
Hidden size: 1.536.
Katman: Her stack için (H ve L) 16.
Attention: 12 head MHA (multi-head attention), head dim 128. Gated attention (sigmoid output gate).
Pozisyon: RoPE, theta 10.000.
Aktivasyon: SwiGLU.
Normalleştirme: Parameterless Pre-RMSNorm.
Context: 4.096 token.
Vocabulary: 65.536.
Eğitim: 40 milyar token, bfloat16, AdamATan2 optimizer, EMA 0.9999.
Lisans: Apache 2.0.

Eğitim verisi, GitHub üzerinde açık olarak paylaşılan ve örnekleme ağırlıkları belirtilmiş bir halka açık metin koleksiyonu. Tam dataset kompozisyonu, sampling pipeline ve preprocessing detayları open source olarak yayınlanmış — bu, transparenlik açısından OLMo serisinden sonra ikinci ciddi örnek.

Pre-alignment: chat asistanı değil, ham temel model

HRM-Text-1B’yi denerken bilmeniz gereken kritik detay şu: Bu bir pre-alignment checkpoint. Yani chat tuning, RLHF, multi-turn dialogue fine-tuning veya talimat takip eğitimi yapılmadı. Sapient, modeli sıfırdan eğitilmiş ham temel olarak yayınlıyor — üzerine SFT veya RL eklemek araştırmacılara bırakılmış.

Yine de ham checkpoint’te ilginç bir condition sistemi var. Pre-training sırasında modele 4 farklı “mod” öğretilmiş, her biri özel bir tokenizer token’ı ile temsil ediliyor:

direct: Doğrudan cevap, akıl yürütme yok.
cot: Chain-of-thought, adım adım reasoning.
noisy: Web-crawl tarzı sıkıştırılmamış metin.
synth: Sentetik/küratörlenmiş tarzı metin.

Bunlar virgülle birleştirilerek kombine edilebiliyor. Örneğin synth,cot kombinasyonu, modeli step-by-step instruct benzeri davranışa sokuyor; matematik ve reasoning prompt’larında düzgün cevaplar verebiliyor. JetBrains modeli gibi tam instruction-tuned bir asistan kadar tutarlı değil ama pretraining’in yan ürünü olarak ortaya çıkan ilginç bir kapasite.

PrefixLM detayı: token_type_ids şart

HRM-Text PrefixLM mask ile eğitilmiş, yani prompt token’ları birbirine bidirectional attention yapıyor, response token’ları ise causal. Inference’da bu davranışı korumak için token_type_ids parametresini geçmek gerekiyor:

inputs["token_type_ids"] = torch.ones_like(inputs["input_ids"])

Eğer bu parametre verilmezse model pure causal moda düşüyor ve performansı belirgin biçimde kötüleşiyor. Bu, modeli denerken kolayca atlanan ama sonuç kalitesini dramatik biçimde etkileyen bir detay.

Sınırlamaları

Sapient açıkça uyarıyor:

İngilizce sadece. Eğitim verisi neredeyse tamamen İngilizce; Türkçe veya diğer dillerde zayıf.
Kod tarafı zayıf. Kod veri seti üzerinde eğitilmedi; kod benchmark’larında düşük tek haneli skorlar alıyor. Üçüncü taraf SFT denemeleri (sadece 1 milyar tokenlık kod fine-tune ile) bu skoru 40-50 bandına çıkardı, yani uyum potansiyeli yüksek ama varsayılan checkpoint kod için uygun değil.
Halüsinasyon ve bias. Diğer pre-alignment modellerinde olduğu gibi, ham çıktılar yanlış veya güvensiz içerebilir.

Bu model neden önemli?

HRM-Text-1B’yi kullanım için değil, mimari için takip etmek lazım. Üç açıdan kayda değer:

1. Recurrent transformer geri dönüyor. Endüstri 2020 sonrası neredeyse tamamen tek yönlü dense transformer’a kilitlendi. HRM, dönen iki modüllü bir yapıyı dil modellemeye geri taşıyor. ARC-AGI sonuçları bu yaklaşımın yeniden incelenmeye değer olduğunu gösteriyor.

2. Compute decoupling. Parametre sayısı ile compute derinliğini birbirinden ayırabilmek, edge cihazlarda büyük model performansını yakalamak için kritik. HRM-Text-1B sadece 1 milyar parametre ile, döngü sayısını artırarak teorik olarak çok daha derin hesaplama yapabiliyor.

3. Açık araştırma. Tam mimari, eğitim verisi, sampling kuralları ve eğitim kodu Apache 2.0 ile yayınlandı. Araştırmacılar bu mimari üzerinde fine-tune, scaling, instruct ekleme gibi deneyleri yapabilir. Sapient’in ardışık olarak büyük HRM modelleri yayınlaması bekleniyor.

Nasıl denenir?

Hugging Face üzerinden Transformers ile çekilebiliyor; model trust_remote_code=True gerektiriyor çünkü hrm_text sınıfı henüz Transformers’ın stable release’ine alınmamış (main branch’ten kurmak gerekebilir). vLLM ve SGLang ile serve edilebiliyor.

Doğru kullanım için condition prefix’i ayarlamak gerekiyor. Reasoning ve matematik için tipik öneri:

condition = "<|quad_end|><|object_ref_end|>"  # synth + cot
prompt = f"<|im_start|>{condition}{soru}<|im_end|>"

NLP görevleri (sınıflandırma, bilgi çıkarma) için direct condition + 2-8 few-shot örneği en iyi sonucu veriyor.

Sonuç

HRM-Text-1B, çoğu kullanıcı için günlük asistan olmaz; chat tuning olmadan üretilen ham bir checkpoint. Ama açık ağırlık ekosistemindeki en ilginç deneylerden biri: dil modeli mimarisinin standart transformer döngüsünden çıkması, beyin esinli yaklaşımların yeniden gündeme gelmesi, ve compute derinliğini parametre sayısından ayırma denemesi.

Sapient’in arkasında durduğu fikir net: belki AGI’ye giden yol “daha büyük transformer” değil, “daha akıllı mimari”. HRM-Text-1B bunun küçük bir kanıt deneyi. Önümüzdeki bir yıl içinde aynı mimarinin çok daha büyük versiyonlarını ve farklı modalitelerde uygulamalarını görmeyi bekleyebiliriz.