在计算领域,长期以来,CPU主导了整个数据中心,虚拟化算力成为云计算的重点。然而,随着人工智能应用的爆发性增长,GPU的芯片架构被发现更适合大规模的AI模型训练和推理,使其成为数据中心第二大算力芯片。当CPU无法解决数据中心基础设施的瓶颈问题时,新一代DPU芯片应运而生。DPU可以重新分配算力和优化资源,为数据中心创新提供新范式,被认为是未来几年行业内的重要创新。
据智能计算芯世界数据显示,DPU的全球市场需求巨大,从2020年的30亿美元增加到2025年的136亿美元,复合年增长率约为36%,到2027年全球数据中心加速器市场价值可达530亿美元,复合年增长率接近44%。看到这种趋势,国外几大传统芯片巨头正规划DPU产品线,国内也涌现了一批拿到融资的DPU创业公司,成为投资界的香饽饽。然而,打造一家成功的DPU企业远非想象中那么简单,一款商业成功的DPU必然是世界级的高端芯片,复杂且高度集成。
去年,中国的半导体行业融资火热,但自今年初开始,科技股股价大幅调整,国内科技行业进入融资寒冬。国内科技企业风险投资额在第一季度相比去年减少了76.7%,许多风投在第一季度停止投资新项目。但困难的经济环境下,更能凸显行业赢家。基于公开信息与行业内资深专家的交流,DeepTech对国内DPU行业进行了深入分析。
DPU:数据中心算力和服务的核心
在算力困境和摩尔定律放缓的大背景下,DPU在处理网络负载和卸载CPU任务的智能网卡的基础上发展起来,成为新一代数据中心算力和服务的核心,让云服务商实现基础设施和客户应用的分离管理,推动数据基础设施领域的创新。
随着单一服务器网络端口速度达到200G或以上,传统的网络、存储、虚拟化、安全等基础设施任务无法有效率地由CPU承载。将这些基础设施任务转移到新的计算单元DPU上,意味着DPU的设计需要遵循软件定义思路,具备灵活性和可编程性,支持不同客户的不同业务和私有协议。
研究表明,基础设施任务消耗大量CPU性能。哈佛大学和谷歌团队于2015年发表的研究报告《Profiling a Warehouse-scale Computer》显示,该研究对谷歌数据中心业务和数以万计的服务器进行了三年深度分析,结果显示,不同服务器应用产生的基础设施类任务构成了“数据中心税”,消耗了服务器中约30%的算力资源。报告还指出,若每台服务器资源利用率能提升一点,都将带来巨大的成本效益。
另一项研究《Accelerometer: Understanding Acceleration Opportunities for Data Center Overheads at Hyperscale》由Facebook(现称Meta)数据中心团队于2020年进行,对运行在Meta计算优化数据中心平台上的微服务进行全面描述。研究发现,执行核心应用程序逻辑只占CPU18%的时间,剩余时间完全用于非应用程序逻辑的核心操作。这意味着,在Meta执行核心应用时,数据中心内的CPU有82%的时间消耗在基础设施类任务上,这是一个惊人数字。
DPU大幅提高算力性价比和利润,引来云服务商和芯片厂竞相布局
全球云计算领头羊亚马逊云AWS最早认识到数据中心算力瓶颈和提升空间,成为最早尝试自研DPU芯片的云服务商。AWS拥有庞大的数据中心体量,深刻体会到算力痛点。AWS CTO Werner Vogels公开表示,传统架构的数据中心已经优化到了极限。
以AWS客户场景为例,在传统架构下,大量资源浪费在算力、网络、存储的运营和调度管理上,这些资源没有为客户提供直接价值。AWS的解决方案是将大部分虚拟机管理程序迁移到其自研的DPU系统——Nitro中。从2017年起,AWS开始用Nitro系统取代上一代架构。
Nitro的应用证实了DPU的市场价值:管理云服务的程序从CPU转移到DPU上后,CPU资源几乎完全用于运行客户业务负载,DPU使用灵活且高性能,特别是在成本上,DPU使宝贵的CPU资源得到充分利用,从而使AWS大幅提高了能售卖给云客户的算力资源。对于云客户而言,他们获得的是更高性价比的算力。
通过DPU达到数据中心算力资源利用率最大化,AWS迎来了前所未有的最高云服务利润。2022年第一季度,AWS业务实现收入184亿美元,同比增长36.6%,利润65.1亿美元,同比增长57%,利润率35.3%达到历史新高。这些数字背后,离不开其自研的DPU芯片Nitro。
其他云服务商也纷纷效仿AWS模式,国内云大厂如阿里云高调宣布基于FPGA的自研DPU解决方案。近年来,云服务商数据中心的最大变化是DPU的诞生,它对云计算的变革不仅限于性能、功耗和安全优化,还包括算力资源的弹性调度和经济价值提升。
面对DPU解决的关键技术痛点,芯片巨头如英伟达Nvidia、英特尔Intel等迅速反应,开始收购相关技术团队并竞相推出DPU或类DPU的早期产品,以抢占数据中心芯片市场。如今,世界最大的几家云计算服务商几乎都靠DPU进行所有算力资源的弹性调度、动态按需分配,以提升云服务质量与效率。对于进入这个赛道的国内DPU创业企业而言,距离成功造出一款商业可用的DPU还有多远?分析彼此间的差异,不难看出谁是最具实力的DPU企业。
DeepTech研究发现,打造一个成功的DPU芯片企业至少需要六大条件:
具备高端芯片开发经验,包括异构、多核处理器、软件定义芯片设计。
大量商业落地经验,深刻理解客户痛点、产品市场定位、生产流程质量风险管理、产品易用性、成本控制与市场回报。
有成功创业经验的团队,具备快速决策和应对挑战的能力。
对云计算客户业务非常熟悉,能提供支持上千种业务的复杂解决方案。
与云计算大厂客户紧密合作,拥有丰富的场景实战经验,确保芯片成功商用。
巨额开发成本,需要巨额融资支持。
其中,云豹智能是目前唯一一家同时符合六大必备条件的国内DPU创业企业。云豹智能成立于2020年底,团队行业背景资深,创始人兼CEO萧启阳博士有顶尖学术背景和丰富的芯片开发经验,曾在硅谷创办公司并成功被多家大型企业收购。云豹智能在DPU硬件开发与软件生态建设上投入巨大,专注于提供全栈式DPU解决方案,为云服务商提供优化资源利用率、降低功耗、提升利润的高通用性DPU产品。
国内DPU行业正处于快速发展期,为DPU应用提供了良好的土壤。政府和全社会意识到芯片产业的战略性和经济性,对国产芯片提供前所未有的支持,如“东数西算”工程提供了国产DPU充分的商用场景,有望培育出具有世界竞争力的DPU芯片公司,实现世界级芯片产品的制造。
越是高端的芯片产品,准入门槛越高,最终市场将呈现“赢家独赢”的局面,即资本、人才、客户等行业资源将集中到头部企业,非头部企业生存空间将非常狭小,投资者面临的风险也特别大。虽然DPU市场目前仍是一片蓝海,但最终也将不可避免地走向赢家独赢的局面。