本报记者 贾丽
随着大模型技术的快速发展,AI推理对算力的需求日益增长,尤其是在大规模并发场景下,如何实现高吞吐、低延迟的推理性能成为行业关注的焦点。
近日,中国自主开源大模型DeepSeek公布了其推理系统采用了其大规模跨节点专家并行(以下简称“大EP”)并行能力,通过其支持的批量扩展、计算通信重叠、全局负载均衡来实现对吞吐量和延迟的优化。其开源策略也有力推动了从框架、工具链到应用场景的全面国产化进程。同时,DeepSeek还给出了其在线服务的统计数据:(理论)成本利润率高达545%。业界认为,这会为AI产业带来信心,进一步激发新一轮算力建设投资。
而昇腾在大EP方面亦有深度的技术创新和创新实践。据了解,昇腾大EP并行技术通过将专家(Expert)分布到更多的计算卡上,显著减少了单卡的显存占用和权重加载时间,从而提升了单卡的并发处理能力,且通过批量扩展、计算通信重叠、全局负载均衡等关键技术,实现了对AI推理吞吐量和延迟的极致优化。
据悉,昇腾大EP方案在单卡性能上提升了3倍,同时将推理时延降低了50%以上,为行业提供了更高性能、更低成本的推理解决方案。
近日,DeepSeek的开源实践也成为业内热议焦点。DeepSeek通过工程创新,降低了AI模型训练和推理的算力门槛,通过开源方式进一步降低了行业部署的门槛,推动了大模型技术的普及。
据了解,开源的昇腾大EP方案通过多专家负载均衡、PD分离部署、双流并行计算、MLAPO融合算子等关键技术,实现了推理性能的显著提升,不仅适用于私有云部署,还可以在公有云环境中灵活扩展,可以满足互联网、金融、医疗等多领域企业对高性能、低成本的AI推理的需求。
随着大模型技术的普及,AI推理正在进入千行百业。业内专家认为,DeepSeek的开源模型和昇腾大EP方案的结合,将为行业客户提供了强大的技术支持。
以金融行业为例,银行可以通过部署昇腾大EP方案,将推理性能提升了3倍,并显著降低推理时延。在教育领域,高校可以通过部署昇腾推理资源池,支持数千名师生同时使用AI模型进行教学和研究。
业内专家预测,未来几年,AI推理的算力需求将呈现爆发式增长。昇腾大EP方案通过性能提升和成本优化,助力AI技术的规模化商用。昇腾将深耕AI推理领域,推动大EP并行技术的创新与应用,助力千行百业实现智能化转型。
(编辑 李波)