Como funciona o supercomputador de IA ‘mais rápido do mundo’ da Meta
Pesquisa em inteligência artificial será realizada na Meta com supercomputador poderosíssimoBy - Renata Aquino, 25 janeiro 2022 às 12:13
A Meta divulgou os passos da construção de seu supercomputador para pesquisa em inteligência artificial (IA). O AI Research SuperCluster (RSC) é uma iniciativa da empresa conhecida anteriormente como Facebook e que hoje detém os aplicativos mais populares de smartphones de todo o mundo (WhatsApp, Instagram e a rede social criada por Zuckerberg). Uma postagem institucional por Kevin Lee, gerente de programas técnicos da Meta, e Shubho Sengupta, engenheiro de software da empresa, detalhou como funcionará o supercomputador.
O novo supercomputador da Meta
Para a pesquisa da próxima geração de inteligência artificial (IA) avançada será necessário computadores capazes de quintilhões de operações por segundo. Assim, a Meta planejou o novo design do RSC, que empresa espera ser o supercomputador de inteligência artificial “mais rápido do mundo” quando estiver totalmente pronto, até julho de 2022.
Pesquisadores já começaram a usar o RSC para treinar grandes modelos de processamento de linguagem natural (NLP) e visão computacional para pesquisa. O objetivo é, algum dia, treinar modelos com trilhões de parâmetros.
Os pesquisadores afirmam que o trabalho realizado com o RSC irá pavimentar o caminho para a construção de tecnologias para as próximas grandes plataformas computacionais, entre elas o metaverso, onde aplicações e produtos de IA terão um papel central.
O tamanho do supercomputador da Meta
A primeira geração do RSC, criada em 2017, tem 22 mil GPUs Nvidia V100 Tensor Core em um só cluster que realiza 35 mil trabalhos de treinamento de IA por dia. O novo RSC deverá ser capaz de treinar modelos com mais de um trilhão de parâmetros e conjuntos de dados tão grandes quanto um exabyte, equivalente a 36 mil anos de vídeo de alta qualidade.
O RSC atualmente terá um total de 760 módulos computacionais com sistemas Nvidia DGX A100, para um total de 6.080 GPUs, com cada GPU A100 sendo mais poderosa do que a V100 usada no sistema anterior.
As GPUs se comunicam através de uma rede Nvidia Quantum 200 Gb/s InfiniBand com dois níveis Clos. O tier de armazenamento do RSC tem 175 petabytes de armazenamento Pure FlashArray, com 46 petabytes de cache nos sistemas Penguin Computing Altus e 10 petabytes de Pure FlashBlade.
Os primeiros benchmarks do RSC, comparados com a infraestrutura antiga de produção e pesquisa da Meta, mostraram que ele trabalha com fluxos de trabalho de visão computacional 20 vezes mais rápido, roda a NVIDIA Collective Communication Library (NCCL) nove vezes mais rápido, e treina modelos de grande escala NLP três vezes mais rápido.
A construção do supercomputador
O design e a construção do RSC focaram em desempenho na maior escala possível, com a tecnologia mais avançada disponível.
Quando o RSC estiver completo, a rede InfiniBand irá conectar 16 mil GPUs como terminais, o que fará com que seja uma das maiores redes já realizadas. A equipe ainda planeja um sistema de armazenamento e cache que pode trabalhar com até 16 TB/s de dados de treinamento, e pode escalar até 1 exabyte.
Para que servisse para a banda larga crescente e capacidade do treinamento de IA, foi necessário criar um serviço de armazenamento, AI Research Store (AIRStore). O AIRStore também otimiza a transferência de dados, assim, o tráfego entre regiões no backbone da Meta entre datacenters é minimizado.
O RSC foi planejado com privacidade e segurança em mente, para que a equipe de pesquisadores da Meta pudesse treinar com segurança usando modelos com dados gerados pelo usuário e criptografados, que não seriam decifrados até antes do treinamento. Por exemplo, o RSC está isolado da internet, sem conexões de entrada e saída e o tráfego pode vir apenas dos data centers de produção da Meta.
Para que os requisitos de privacidade e segurança fossem atendidos, o caminho de dados dos sistemas de armazenamento para as GPUs possui criptografia de ponta a ponta e possui as ferramentas necessárias e processos para verificar que esses requisitos sejam atendidos o tempo todo.
Antes de os dados serem importados para o RSC, eles passam por um processo de revisão de privacidade para confirmar se foram corretamente anonimizados. Os dados são criptografados antes que possam ser usados para treinar modelos de IA e as chaves de criptografia são apagadas regularmente para assegurar que dados mais antigos não estejam mais acessíveis. E como os dados só são criptografados no terminal, em memória, estão assegurados mesmo caso o prédio seja invadido fisicamente.
Fase dois e planos para o futuro
O RSC já está funcionando, mas seu desenvolvimento é contínuo. Quando a fase dois de construção do RSC estiver completa, a equipe acredita que será o supercomputador de IA mais rápido do mundo, com desempenho de cerca de 5 exaflops de precisão computacional mista.
A equipe espera que a mudança trazida pelo RSC modifique não apenas a capacidade computacional como permita criar modelos mais apurados de IA para serviços existentes e também para novas experiências no metaverso.
Comentários