Üretken yapay zeka modellerinin iç işleyişi hakkında fazla bilginiz olmasa bile, muhtemelen onların çok fazla belleğe ihtiyaç duyduğunu biliyorsunuzdur. Bu nedenle, şu anda küçük bir RAM çubuğu satın almak neredeyse imkansızdır.yünlenmeden. Son zamanlarda Google AraştırmasıTurboQuant'ı ortaya çıkardıBüyük dil modellerinin (LLM'ler) bellek alanını azaltan, aynı zamanda hızı artıran ve doğruluğu koruyan bir sıkıştırma algoritmasıdır.
TurboQuant, Google'ın yeniden hesaplanması gerekmeyecek şekilde önemli bilgileri saklayan bir "dijital kopya kağıdına" benzettiği anahtar/değer önbelleğinin boyutunu küçültmeyi amaçlıyor. Bu kısa not gerekli, çünkü her zaman söylediğimiz gibi, Yüksek Lisans'lar aslında hiçbir şey bilmiyor; simgeleştirilmiş metnin anlamsal anlamını haritalandıran vektörlerin kullanımı yoluyla bir şeyleri bildiklerine dair iyi bir izlenim yaratabilirler. İki vektör benzer olduğunda, bu onların kavramsal benzerliğe sahip olduğu anlamına gelir.
Yüzlerce veya binlerce yerleştirmeye sahip olabilen yüksek boyutlu vektörler, bir görüntüdeki veya büyük bir veri kümesindeki pikseller gibi karmaşık bilgileri tanımlayabilir. Ayrıca çok fazla bellek kaplarlar ve anahtar/değer önbelleğinin boyutunu şişirerek performansta darboğaz yaratırlar. Modelleri daha küçük ve daha verimli hale getirmek için geliştiriciler niceleme tekniklerini kullanır.bunları daha düşük hassasiyette çalıştırın. Dezavantajı ise çıktıların kötüleşmesidir; token tahmininin kalitesi düşer. Google'ın ilk sonuçları, TurboQuant ile bazı testlerde 8 kat performans artışı ve bellek kullanımında 6 kat azalma olduğunu gösteriyorolmadankalite kaybı.




