智谱发布Infra新成果:同等硬件投入,算力多出15% API响应提升显著。5月21日,智谱宣布部署了一项名为ZCube的架构创新,这项创新直接影响了大模型的推理效率。在GLM-5.1编码场景中,ZCube在保持GPU算力、软件栈与应用不变的情况下,节省了33%的交换机与光模块成本,并将GPU平均推理吞吐提升了15%,TTFT P99降低了40.6%。
这表明,在相同的硬件投入下,智谱的GLM大模型现在每秒能处理更多的API请求,具体而言是提升了15%。
广瑞网配资提示:文章来自网络,不代表本站观点。