3月25日,Google Research发了一篇技术论文。这篇论文叫TurboQuant。它做的事情是把大语言模型推理时占用最多内存的那块缓存压缩了6倍,同时精度没有任何损失。Cloudflare的CEO Matthew ...