Google TurboQuant: LLM'leri 6 kat az bellekle çalıştıran yöntem

Google'ın TurboQuant'ı, dil modellerinin en büyük bellek yükü olan KV cache'i kaliteyi bozmadan 6 kata kadar sıkıştırıyor. AI çıkarımı ucuzluyor, bağlam uzuyor.

Kaan Dülgar··3 dk okuma
Google TurboQuant: LLM'leri 6 kat az bellekle çalıştıran yöntem

Yapay zekanın pahalı olmasının görünmeyen sebeplerinden biri, modelin uzun bir konuşmayı ya da koca bir belgeyi "akılda tutması" için harcadığı bellek. Google Research'ün ICLR 2026'da tanıttığı TurboQuant, tam da bu yükü hedefliyor ve dil modellerinin en büyük bellek darboğazını 6 kata kadar sıkıştırıyor, üstelik cevap kalitesini neredeyse hiç bozmadan. Kulağa teknik geliyor ama sonucu çok somut: daha ucuz, daha hızlı, daha uzun bağlamlı yapay zeka.

Önce şu KV cache nedir?

Bir dil modeli metin üretirken kelimeleri tek tek işler. Her yeni kelimede baştan hesap yapmamak için, o ana kadar gördüğü her token için bazı ara değerleri (teknik adıyla anahtar ve değer vektörlerini) bir tür not defterinde saklar. Bu deftere KV cache deniyor ve modelin hızlı çalışmasının sırrı büyük ölçüde burada.

Sorun şu: bu defter, bağlam uzadıkça şişiyor. Modelin akılda tuttuğu metin ne kadar uzunsa, KV cache o kadar büyük yer kaplıyor. Somut bir örnek: 128 bin tokenlık bir bağlamda, 70 milyar parametreli bir modelin yalnızca KV cache'i yaklaşık 40 GB bellek tüketiyor. Bu, modelin ağırlıklarından bağımsız, devasa bir ek yük. İşte bu yüzden uzun bağlam, yani modelin tek seferde okuyabildiği metin miktarı, doğrudan donanım maliyetine dönüşüyor.

TurboQuant ne yapıyor?

TurboQuant bir nicemleme (quantization) yöntemi. Kısaca, KV cache'teki sayıları çok daha az yer kaplayan bir biçimde temsil ediyor: her bir değeri yaklaşık 3 bite indiriyor. Bunu yaparken bilgiyi öyle akıllıca sıkıştırıyor ki kayıp neredeyse sıfır.

Sonuçlar etkileyici. NVIDIA H100 üzerinde en az 6 kat daha az bellek ve 8 kata kadar daha hızlı dikkat (attention) hesabı. En önemlisi, yöntem eğitim gerektirmiyor ve veriden bağımsız çalışıyor; yani modeli yeniden eğitmene gerek yok, mevcut modele doğrudan uygulanabiliyor. Teknik tarafta PolarQuant adı verilen bir dönüşümle 1 bitlik bir düzeltme adımını birleştiriyor, ama akılda kalması gereken şey şu: bilgi-kuramsal sınırın çok yakınında, neredeyse mümkün olan en iyi sıkıştırmayı yapıyor.

Bu neden büyük bir mesele?

Çünkü bellek, yapay zekanın en sert duvarlarından biri. Aynı GPU'da:

  • Daha uzun bağlam çalıştırabilirsin (modelin daha fazla metni aynı anda akılda tutması).
  • Daha çok kullanıcıya aynı anda hizmet verebilirsin (her oturum daha az bellek yer).
  • Daha büyük modelleri daha az donanımla çalıştırabilirsin.

Yani TurboQuant doğrudan yeni bir model değil, ama var olan tüm modelleri daha ucuz ve daha erişilebilir kılan bir kaldıraç. Büyük dil modellerinin en çok övündüğü uzun bağlam penceresinin faturasını ciddi biçimde düşürüyor; her token'ın bir maliyeti olduğunu hatırlarsak, bu faturanın altıda birine inmesi küçük bir şey değil.

İlginç yan etki: bellek çiplerini sarstı

Haberin az konuşulan ama çarpıcı bir tarafı da burada. Eğer bir yazılım hilesi belleği altıda birine indirebiliyorsa, "soruna pahalı donanım atma" mantığı zayıflıyor. TurboQuant duyurulduğunda bellek çipi hisselerinde bir tedirginlik yarattı; çünkü yapay zeka için pahalı yüksek bant genişlikli belleğe (HBM) olan açlığın bir kısmı yazılımla hafifletilebilir.

Bu, daha büyük bir tartışmanın parçası: yapay zekanın enerji ve bellek duvarını donanımla mı yazılımla mı aşacağız? Bellek darboğazına yeni çip mimarileriyle saldıran girişimler bir yandan ilerlerken, TurboQuant gibi yöntemler aynı sorunu tamamen yazılım tarafından çözebileceğini gösteriyor. Muhtemelen cevap ikisinin birlikte yürümesi olacak; tıpkı ışıkla hesaplama gibi donanım atılımlarının yazılım optimizasyonlarıyla el ele gitmesi gibi.

Sık sorulan sorular

TurboQuant modeli yeniden eğitmeyi gerektiriyor mu? Hayır. Yöntem eğitimden bağımsız ve veriye ihtiyaç duymuyor; mevcut bir dil modeline doğrudan uygulanabiliyor. Bu, onu pratikte hızla benimsenebilir kılan en önemli özelliği.

6 kat az bellek, cevap kalitesini düşürmüyor mu? Google'ın paylaştığı sonuçlara göre kayıp neredeyse sıfır. TurboQuant, bilgiyi kaybetmeden sıkıştırdığı için modelin çıktısı pratikte aynı kalıyor; kazanç bellek ve hızda yaşanıyor.

Bu bir yapay zeka modeli mi? Hayır. TurboQuant yeni bir model değil, var olan modelleri daha verimli çalıştıran bir teknik. Yani bir rakip değil, neredeyse tüm dil modellerinin üzerine eklenebilecek bir iyileştirme.

Haftalık özet bültenimize katıl

Teknoloji, yapay zeka, kripto ve borsadaki haftanın özetini Pazar sabahı e-postana gönderelim. Spam yok.