售前咨询-李:13308089138
售前咨询-吴:17760489178 English
前沿资讯 真实、准确的物联网、互联网行业新闻

Arista对AI 给网络带来的压力给出了答案

你的位置: 网站首页 新闻动态 行业资讯
Arista对AI 给网络带来的压力给出了答案
2023-01-07 11:19:37 阅读: 发布人:纵横智控

如果网络要发挥 AI 的全部功能,则需要结合高性能连接和无数据包丢失

Arista Networks Cloud Titans 和平台产品管理副总裁 Martin Hull 表示,令人担忧的是,当今的传统网络互连无法提供满足 AI 请求所需的规模和带宽。从历史上看,连接处理器内核和内存的唯一选择是专有互连,例如 InfiniBand、PCI Express 和其他连接计算集群和卸载的协议,但在大多数情况下,它们不适用于 AI 及其工作负载要求。

Arista 人工智能脊柱

为了解决这些问题,Arista 正在开发一种称为 AI Spine 的技术,该技术需要具有深度数据包缓冲区的数据中心交换机和提供实时监控的网络软件,以帮助管理缓冲区并有效地控制流量。

“我们开始看到的是一波基于 AI、自然语言、机器学习的应用程序浪潮,这些应用程序涉及分布在数百或数千个处理器(CPU、GPU)上的大量数据,它们都承担了计算任务,将其切片分成几块,每个处理自己的一块,然后再送回去,”赫尔说。

“如果您的网络因流量下降而犯错,则意味着 AI 工作负载的启动会延迟,因为您必须重新传输它。如果在处理这些 AI 工作负载的过程中,流量再次来回移动,就会减慢 AI 工作的速度,而且它们实际上可能会失败。”

RTU

AI脊柱架构

Arista 的 AI Spine 基于其 7800R3 系列数据中心交换机,该交换机在高端支持 460Tbps 的交换容量和数百个 40Gbps、50Gbps、100Gbps 或 400Gbps 接口以及 384GB 深度缓冲。 

“深度缓冲区是保持流量畅通且不丢失任何东西的关键,”赫尔说。“有些人担心大缓冲区的延迟,但我们的分析并未显示这里发生这种情况。”

AI Spine 系统将由 Arista 的核心网络软件可扩展操作系统 (EOS) 控制,该软件支持高带宽、无损、低延迟、基于以太网的网络,可以以 100Gbps、400Gbps 和 100Gbps 的速度互连数千个 GPU根据AI Spine 的白皮书,800Gbps 以及缓冲区分配方案。

根据 Arista 的说法,为了帮助支持这一点,交换机和 EOS 包创建了一个结构,该结构可以分解数据包并将它们重新格式化为统一大小的单元,将它们均匀地“喷射”到整个结构中。目的是确保对结构内所有可用路径的平等访问和零数据包丢失。

“基于单元的结构不关心前面板连接速度,混合和匹配 100G、200G 和 400G 几乎不用担心,”Arista 写道。“此外,单元结构使其不受以太网结构的‘流冲突’问题的影响。交换机内使用了分布式调度机制,以确保竞争访问拥塞输出端口的流量的公平性。”

由于每个流都使用任何可用路径到达其目的地,该结构非常适合处理 AI/ML 应用程序常见的大流量“大象流”,因此“网络中没有内部热点, ”阿里斯塔写道。

人工智能脊柱模型

为了解释 AI Spine 的工作原理,Arista 的白皮书提供了两个示例。

首先,Arista 7800 的专用枝叶和主干设计与大约数百个服务器机架相连,EOS 的智能负载平衡功能将控制服务器之间的流量以避免冲突。

QoS 分类、显式拥塞通知 (ECN) 和优先流控制 (PFC) 阈值在所有交换机上配置,以避免数据包丢失。Arista EOS 的延迟分析器 (LANZ) 确定适当的阈值以避免数据包丢失,同时保持高吞吐量,并允许网络扩展,同时保持延迟预测和低。 

第二个用例可以扩展到数百个端点,将所有 GPU 模式直接连接到 AI Spine 中的 7800R3 交换机。Arista 写道,其结果是一个在所有端点之间提供单跳的结构,降低了延迟,并实现了一个单一的、大型的、无损的网络,不需要配置或调整。


网络人工智能的挑战

对 AI Spine 架构的需求主要是由服务器虚拟化、应用程序容器化、多云计算、Web 2.0、大数据和 HPC 等技术和应用程序驱动的。“为了优化和提高这些新技术的性能,分布式横向扩展、深度缓冲的 IP 结构已被证明可以提供一致的性能,可以扩展以支持极端的‘东西’流量模式,”Arista 写道。

虽然大多数企业担心处理大规模 AI 集群工作负载可能还为时过早,但一些更大的环境以及超大规模、金融、虚拟现实、游戏和汽车开发网络已经在为它们可能造成的流量中断做准备。传统网络。

Arista 首席执行官 Jayshree Ullal 最近告诉高盛,随着 AI 工作负载的增长,它们对网络的规模和带宽施加了越来越大的压力,同时也对正确的存储和缓冲区深度、具有可预测的延迟以及处理大象流的小数据包施加了越来越大的压力。技术汇聚。“这需要大量的工程来使传统以太网作为后端网络运行以支持未来的这项技术,而 400G 的日益增长的使用将为这一发展增添额外的动力,”Ullal 说。


友情链接