推动数据中心基础设施的下一步演进

Marvell公司最近在加利福尼亚州圣克拉拉的总部举行了分析师节,其中,Marvell的高级管理人员明确表示,对于他们来说,“AI”不仅仅代表人工智能,还代表着加速基础设施。

在传统的人工智能和生成人工智能的分类中,现有的数据中心基础设施已被证明至少可以满足前者当前的需求。然而,后者正在推动数据中心基础设施设计的根本性转变,以应对计算、存储和功耗需求的爆炸式增长。Marvell公司的高管们阐述了最近生成AI在其策略上的影响-也就是没有影响。Marvell的首席运营官Chris Koopmans重申了公司的立场,即Marvell之前明确表示的将研发“用于移动、存储、处理和保护数据的半导体”。他们的策略已经在为数据处理的爆炸做准备,而生成的AI恰好是目前驱动需求的最数据密集的应用,这是Koopmans的观点。

接下来是加速基础设施。

什么是加速基础设施?Marvell公司的产品与技术总裁Raghib Hussain将加速基础设施描述为高速、低延迟连接的高度复杂计算资源的组合。但是,它并不仅仅关于组件的能力,而是用于架构数据中心的拓扑结构。

传统的数据中心被设计为通常处理由结构良好、已知和限定大小的数据组成的多个工作负载。而加速基础设施数据中心(主要设计为处理AI工作负载),需要适应的数据量巨大,且可能是结构化或非结构化的,通常它们不符合一个服务器的规格大小。因此,加速基础设施需求强健的南北通信和更多的“东西”通信或同一数据中心中的服务器-服务器通信。

这对服务器-服务器带宽和延迟要求影响很大,最终推动了交换和互连能力。这也推动了数据中心的拓扑结构,加速基础设施需要更平坦,每个交换机上的服务器更少,服务器之间的网络带宽更高,服务器和数据中心互连(DCI)之间的交换机层次更少。

回想起计算是关键,但......忽视交换机和互连设施的惩罚是沉重的。对于生成AI的讨论主要集中在模型的训练和推断,以及支持这些工作负载的核心组件。例如,处理资源如中央处理单元(CPU)、图形处理单元(GPU)和神经处理单元(NPU),以及内存资源和所有资源消耗的功率等。虽然这些组件在加速基础设施中非常关键,但设计互连设施和交换设施的过程也同样重要。

在这个背景下,Marvell的高管们概述了两种他们认为在部署针对AI工作负载的加速基础设施时至关重要的技术:光网络和以太网交换。

哪种网络连通性解决方案最适合特定部署是由距离、速度、可靠性和上市时间因素驱动的。铜独具低成本优势,但最适合短途和低速。带宽和规模是加速基础设施中至关重要的,Marvell认为光缆是最终能满足数据中心AI工作负载需求的唯一解决方案。

同样,Marvell建议以其高带宽和低延迟能力的以太网交换作为加速基础设施的基础。它不仅与现有的云基础设施互补,而且是一个被广泛采用的开放标准,可以在一整套多样化的硬件中操作。然而,以太网确实需要不断改进以提供更高的带宽和减少延迟,并提高拥塞适应性。

在前进进入人工智能时代的过程中,Marvell的加速基础设施策略并不例外。更重要的是,Marvell正在照亮生态系统的一个领域,该领域常常被处理技术的更为抢眼的进步所掩盖,但使得生成AI的下一个阶段成为可能。

芯片品牌:英特尔,型号:Xeon,适用领域:服务器
芯片品牌:英伟达,型号:A100,适用领域:深度学习
芯片品牌:AMD,型号:EPYC,适用领域:高性能计算
芯片品牌:华为海思,型号:Kunpeng 920,适用领域:数据中心
芯片品牌:Arm,型号:Neoverse N1,适用领域:集群运算
芯片品牌:飞腾,型号:FT-2000,适用领域:国产替代领域。
热门标签
热门文章