智谱最新发布的一篇技术博客,画风稍微有点不一样: 没有过去的硬核技术输出,反而大倒苦水从GLM-5以来的各种花式踩坑,官方称之为「Scaling Pain」。 我们的推理基础设施正承受着前所未有的压力,每天都要服务数亿次Coding Agent调用。
智通财经APP获悉,智谱(02513)公众号发文,首次系统披露GLM-5系列模型在超大规模Coding Agent调用场景下的底层推理技术突破。包括两个关键Bug的定位及修复、一项性能优化创新、以及一个意外的监控机制突破。针对Context ...
v8i采用Boardfly架构,OCS应用领域迈入推理侧 v8i作为后训练和推理芯片,SRAM容量较上一代提升3倍,可容纳更大的KV缓存,显著减少长上下文decoding时的空闲时间,v8i采用Boardfly架构,相较3Dtorus架构显著减少网络直径至7跳,更适用于MoE推理。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果