Для того чтобы сети могли реализовать всю мощь искусственного интеллекта, им необходимо сочетать высокопроизводительное соединение без потери пакетов
Мартин Халл, вице-президент по управлению продуктами для облачных титанов и платформ компании Arista Networks, говорит, что проблема заключается в том, что современные традиционные сетевые соединения не могут обеспечить масштаб и пропускную способность, необходимые для удовлетворения запросов ИИ. Исторически единственными вариантами соединения процессорных ядер и памяти были проприетарные интерконнекты, такие как InfiniBand, PCI Express и другие протоколы для подключения вычислительных кластеров и их разгрузки, но в большинстве случаев они не подходят для ИИ и его требований к рабочей нагрузке.
Arista Artificial Intelligence Spine
Для решения этих проблем компания Arista разрабатывает технологию под названием AI Spine, для которой необходимы коммутаторы для центров обработки данных с глубокими буферами пакетов и сетевое программное обеспечение, обеспечивающее мониторинг в реальном времени, чтобы помочь управлять буферами и эффективно контролировать трафик.
"Мы начинаем наблюдать волну приложений, основанных на искусственном интеллекте, естественном языке и машинном обучении, в которых огромные объемы данных распределяются по сотням или тысячам процессоров (CPU, GPU), каждый из которых должен вычислить задачу, разбить ее на части, каждый обработать свою часть и отправить ее обратно", - говорит Халл.
"Если ваша сеть ошибается в сторону падения трафика, это означает, что рабочая нагрузка ИИ задерживается в запуске, потому что вам приходится повторно передавать ее. Если в процессе обработки этих рабочих нагрузок ИИ трафик снова перемещается туда-сюда, это замедляет скорость работы ИИ, и они могут фактически выйти из строя".
Архитектура позвоночника искусственного интеллекта
AI Spine компании Arista базируется на серии коммутаторов для центров обработки данных 7800R3, которые поддерживают коммутационную способность 460 Тбит/с и сотни интерфейсов 40 Гбит/с, 50 Гбит/с, 100 Гбит/с или 400 Гбит/с, а также буферы глубиной 384 ГБ в верхней части.
"Глубинный буфер - это ключ к тому, чтобы поддерживать поток и ничего не терять", - говорит Халл. "Некоторые люди беспокоятся о задержках в больших буферах, но наш анализ не показывает, что это происходит в данном случае".
Система AI Spine будет управляться основным сетевым программным обеспечением Arista, Extensible Operating System (EOS), которое поддерживает сети на базе Ethernet с высокой пропускной способностью, без потерь и с низкой задержкой, способные объединять тысячи графических процессоров на скоростях 100, 400 и 100 Гбит/с. Согласно технической документации AI Spine, 800 Гбит/с и схема распределения буферов.
По словам представителей Arista, коммутаторы и пакеты EOS создают ткань, которая разбивает пакеты и переформатирует их в единые по размеру блоки, "распыляя" их равномерно по всей ткани. Цель состоит в том, чтобы обеспечить равный доступ ко всем доступным путям внутри ткани и исключить потерю пакетов.
"Архитектура на основе ячеек не заботится о скорости соединения на передней панели, и смешивание и сопоставление 100, 200 и 400 Гбит/с не требует особых усилий", - пишет Arista. Кроме того, ячеистая структура делает ее невосприимчивой к проблеме "столкновения потоков" в сетях Ethernet. Внутри коммутатора используется механизм распределенного планирования для обеспечения справедливости для трафика, конкурирующего за доступ к перегруженным выходным портам".
Поскольку каждый поток использует любой доступный путь для достижения пункта назначения, структура хорошо подходит для обработки "слоновьих потоков" с высоким трафиком, характерных для приложений AI/ML, поэтому "в сети нет внутренних "горячих точек", - пишет Arista.
Модель позвоночника с искусственным интеллектом
Чтобы объяснить, как работает AI Spine, в техническом документе Arista приводятся два примера.
Во-первых, выделенная конструкция Arista 7800 подключается примерно к сотням серверных стоек, а интеллектуальные функции балансировки нагрузки EOS будут контролировать трафик между серверами, чтобы избежать конфликтов.
Классификация QoS, явное уведомление о перегрузке (ECN) и пороговые значения приоритетного управления потоком (PFC) настраиваются на всех коммутаторах, чтобы избежать потери пакетов. Анализатор задержек (LANZ) Arista EOS определяет соответствующие пороги, чтобы избежать потери пакетов при сохранении высокой пропускной способности, и позволяет масштабировать сеть, сохраняя задержки предсказуемыми и низкими.
Второй вариант использования может достигать сотен конечных точек, подключая все режимы GPU непосредственно к коммутатору 7800R3 в AI Spine. В результате получается ткань, которая обеспечивает один переход между всеми конечными точками, снижая задержки и обеспечивая единую, большую сеть без потерь, не требующую конфигурации или настройки, пишет Arista.
Проблемы сетевого искусственного интеллекта
Спрос на архитектуру AI Spine в основном обусловлен такими технологиями и приложениями, как виртуализация серверов, контейнеризация приложений, мультиоблачные вычисления, Web 2.0, большие данные и высокопроизводительные вычисления. Для оптимизации и повышения производительности этих новых технологий были разработаны распределенные масштабируемые IP-ткани с глубокой буферизацией, которые обеспечивают стабильную производительность и могут масштабироваться для поддержки экстремальных моделей трафика "восток-запад", - пишет Arista.
Хотя большинству предприятий, возможно, еще рано беспокоиться о работе с крупными кластерными нагрузками ИИ, некоторые крупные среды, а также гипермасштабные сети, финансовые сети, сети виртуальной реальности, игровые сети и сети для разработки автомобилей уже готовятся к перебоям в трафике, которые они могут вызвать. . традиционная сеть.
Генеральный директор компании Arista Джайшри Уллал недавно заявил в интервью Goldman Sachs, что по мере роста рабочих нагрузок ИИ они оказывают все большее давление на масштаб и пропускную способность сетей, а также на правильное хранение данных и глубину буферов с предсказуемой задержкой. Конвергенция технологий. "Чтобы заставить устаревший Ethernet работать в качестве внутренней сети для поддержки этой технологии в будущем, потребуется много инженерных решений, а растущее использование 400G придаст дополнительный импульс этому развитию", - говорит Уллал.