Não conseguiu participar do Transform 2022? Confira todas as sessões da cúpula em nossa biblioteca sob demanda agora! Assista aqui.


A inteligência artificial (IA) e o aprendizado de máquina (ML) são mais do que algoritmos: o hardware certo para turbinar seus cálculos de IA e ML é fundamental.

Para acelerar a conclusão do trabalho, os clusters de treinamento de IA e ML precisam de alta largura de banda e transporte confiável com latência de cauda baixa previsível (latência de cauda é 1 ou 2% de um trabalho que segue o restante das respostas). Uma interconexão de alto desempenho pode otimizar as cargas de trabalho de data center e computação de alto desempenho (HPC) em seu portfólio de clusters de treinamento de IA e ML hiperconvergentes, resultando em menor latência para melhor treinamento de modelos, maior utilização de pacotes de dados e custos operacionais mais baixos.

À medida que os trabalhos de treinamento de IA e ML se tornam mais predominantes, é fundamental ter switches de base mais altos, que diminuem a latência e a energia, e velocidades de porta mais altas para criar clusters de treinamento maiores com topologia de rede plana.

Comutação Ethernet para otimização de desempenho

Embora os requisitos de largura de banda de rede em data centers continuem aumentando drasticamente, também há um forte impulso para combinar a infraestrutura geral de computação e armazenamento com processadores de treinamento otimizados de IA e ML. Como resultado, os clusters de treinamento de IA e ML — onde você especifica várias máquinas para treinamento — estão impulsionando a demanda por malhas com conectividade de alta largura de banda, alta base e conclusão de trabalho mais rápida ao operar com alta utilização da rede.

Evento

MetaBeat 2022

A MetaBeat reunirá líderes de pensamento para fornecer orientação sobre como a tecnologia metaverse transformará a maneira como todas as indústrias se comunicam e fazem negócios em 4 de outubro em San Francisco, CA.

Registre-se aqui

Para acelerar a conclusão do trabalho, é essencial ter um balanceamento de carga eficaz para obter alta utilização da rede, bem como mecanismos de controle de congestionamento para obter latência de cauda previsível. Infraestruturas de dados virtualizadas e eficientes, combinadas com hardware capaz, também podem melhorar as descargas de CPU e ajudar os aceleradores de rede a melhorar o treinamento da rede neural.

As infraestruturas baseadas em Ethernet oferecem atualmente a melhor solução para uma rede unificada. Eles combinam baixo consumo de energia com alta largura de banda e base, e as velocidades mais rápidas de serializador e desserializador (SerDes), com uma duplicação previsível da largura de banda a cada 18 a 24 meses. Com essas vantagens, bem como seu grande ecossistema, a Ethernet pode fornecer a interconexão de maior desempenho por watt e dólar para IA e ML e infraestrutura em escala de nuvem.

De acordo com a IDC, o mercado global de switches Ethernet cresceu 12,7% ano a ano, para US$ 7,6 bilhões no primeiro trimestre de 2022 (1T22). A Broadcom oferece a família Tomahawk de switches Ethernet para habilitar a próxima geração de redes unificadas.

Hoje, a Broadcom, com sede em San Jose, anunciou a série de switches StrataXGS Tomahawk 5, que oferece 51,2 Tbps de capacidade de comutação Ethernet em um único dispositivo monolítico – mais que o dobro da largura de banda de seus contemporâneos, afirma a empresa.

“O Tomahawk 5 tem o dobro da capacidade do Tomahawk 4. Como resultado, é um dos chips de comutação mais rápida do mundo”, disse Ram Velaga, vice-presidente sênior e gerente geral do grupo principal de comutação da Broadcom. “Os recursos e recursos específicos recém-adicionados para otimizar o desempenho das redes de IA e ML tornam [the] Tomahawk 5 duas vezes mais rápido que a versão anterior.”

Os chips de switch Tomahawk 5 foram projetados para auxiliar data centers e ambientes de HPC, para acelerar os recursos de IA e ML. O chip do switch usa uma abordagem Broadcom conhecida como roteamento cognitivo, um buffer de pacote compartilhado avançado, telemetria em banda programável, com failover de link baseado em hardware embutido no chip.

O roteamento cognitivo otimiza a utilização do link de rede selecionando automaticamente os links menos carregados do sistema para cada fluxo que passa pelo switch. Isso é especialmente importante para cargas de trabalho de IA e ML, que frequentemente combinam fluxos de alta largura de banda de curta e longa duração com baixa entropia.

“O roteamento cognitivo é um passo além do roteamento adaptativo”, disse Velaga. “Ao usar o roteamento adaptável, você está ciente apenas do congestionamento de dados entre dois pontos, mas não tem conhecimento das outras extremidades.”

O roteamento cognitivo, acrescentou ele, pode tornar o sistema ciente das condições além do próximo vizinho, redirecionando para um caminho ideal que forneça melhor equilíbrio de carga e evite congestionamento.

O Tomahawk 5 inclui balanceamento de carga dinâmico em tempo real, que monitora o uso de todos os links no switch e downstream na rede para determinar o melhor caminho para cada fluxo. Ele também monitora o status dos links de hardware e redireciona automaticamente o tráfego para longe de conexões com falha. Esses recursos melhoram a utilização da rede e reduzem o congestionamento, resultando em menor tempo de conclusão do trabalho.

O futuro da Ethernet para infraestruturas de IA e ML

A Ethernet possui as características necessárias para clusters de treinamento de IA e ML de alto desempenho: alta largura de banda, gerenciamento de congestionamento de ponta a ponta, balanceamento de carga e gerenciamento de malha a um custo menor do que seus contemporâneos, como o InfiniBand.

Está claro que a Ethernet é um ecossistema robusto que está em constante desenvolvimento em um ritmo acelerado de inovação. “A Ethernet é implacável e espero que continue invadindo áreas como IA/ML”, disse Craig Matsumoto, analista de pesquisa sênior da 451 Research, à VentureBeat. “A recompensa é a homogeneidade – se eu puder executar todas as cargas de trabalho na Ethernet, supondo que o desempenho seja bom o suficiente, posso ter uma rede homogênea que todas as cargas de trabalho podem compartilhar. É mais simples e me compra caminhos mais redundantes para encaminhar tráfego.”

A Broadcom mostrou que continuará aprimorando seus switches Ethernet para acompanhar o ritmo de inovação que acontece no setor de IA e ML e continuará fazendo parte da infraestrutura de HPC no futuro.

A missão do VentureBeat é ser uma praça digital para os tomadores de decisões técnicas adquirirem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Aprender mais sobre a associação.

Fonte: venturebeat.com

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *