O Google afirma que seu TPU v4 supera o Nvidia A100 - Shenzhen Coastwise Solutions Inc.

Por Jaime Hampton

6 de abril de 2023

Um novo artigo científico do Google detalha o desempenho de sua plataforma de supercomputação Cloud TPU v4, afirmando que ela fornece desempenho em exascale para aprendizado de máquina com maior eficiência.

Os autores do trabalho de pesquisa afirmam que o TPU v4 é 1,2x–1,7x mais rápido e usa 1,3x–1,9x menos energia do que o Nvidia A100 em sistemas de tamanho semelhante. O documento observa que o Google não comparou o TPU v4 com as GPUs Nvidia H100 mais recentes devido à sua disponibilidade limitada e arquitetura de 4 nm (vs. Arquitetura de 7 nm do TPU v4).

À medida que os modelos de aprendizado de máquina se tornaram maiores e mais complexos, também aumentaram suas necessidades de recursos de computação. As Unidades de Processamento Tensor (TPUs) do Google são aceleradores de hardware especializados usados para construir modelos de aprendizado de máquina, especificamente redes neurais profundas. Eles são otimizados para operações de tensor e podem aumentar significativamente a eficiência no treinamento e inferência de modelos de ML em grande escala. O Google diz que o desempenho, a escalabilidade e a disponibilidade tornam os supercomputadores TPU os burros de carga de seus grandes modelos de linguagem como LaMDA, MUM e PaLM.

O supercomputador TPU v4 contém 4.096 chips interconectados por meio de interruptores de circuito óptico (OCS) proprietários, que o Google afirma serem mais rápidos, mais baratos e utilizam menos energia do que o InfiniBand, outra tecnologia de interconexão popular. O Google afirma que sua tecnologia OCS é inferior a 5% do custo e energia do sistema TPU v4, afirmando que reconfigura dinamicamente a topologia de interconexão do supercomputador para melhorar a escala, disponibilidade, utilização, modularidade, implantação, segurança, energia e desempenho.

Os engenheiros do Google e autores de artigos, Norm Jouppi e David Patterson, explicaram em uma postagem de blog que, graças às principais inovações em tecnologias de interconexão e aceleradores específicos de domínio (DSAs), o Google Cloud TPU v4 permitiu um salto de quase 10 vezes no escalonamento do desempenho do sistema ML em relação ao TPU v3. Ele também aumentou a eficiência energética em aproximadamente 2 a 3 vezes em comparação com os DSAs de ML contemporâneos e reduziu o CO2e em aproximadamente 20 vezes em relação aos DSAs no que a empresa chama de datacenters locais típicos.

O sistema TPU v4 está em operação no Google desde 2020. O chip TPU v4 foi apresentado na conferência de desenvolvedores de E/S de 2021 da empresa. O Google diz que os supercomputadores são usados ativamente pelas principais equipes de IA para pesquisa e produção de ML em modelos de linguagem, sistemas de recomendação e outras IA generativas.

Em relação aos sistemas de recomendação, o Google diz que seus supercomputadores TPU também são os primeiros com suporte de hardware para incorporações, um componente-chave dos modelos de recomendação de aprendizado profundo (DLRMs) usados em publicidade, classificação de pesquisa, YouTube e Google Play. Isso ocorre porque cada TPU v4 é equipado com SparseCores, que são processadores de fluxo de dados que aceleram modelos que dependem de incorporações em 5x–7x, mas usam apenas 5% da área de matriz e energia.

A Midjourney, uma startup de IA de conversão de texto em imagem, selecionou recentemente o TPU v4 para treinar a quarta versão de seu modelo de geração de imagens: "Estamos orgulhosos de trabalhar com o Google Cloud para oferecer uma experiência perfeita para nossa comunidade criativa com tecnologia global do Google infraestrutura escalável", disse David Holz, fundador e CEO da Midjourney em uma postagem no blog do Google. "Desde o treinamento da quarta versão do nosso algoritmo nos TPUs v4 mais recentes com JAX até a execução de inferência em GPUs, ficamos impressionados com a velocidade com que o TPU v4 permite que nossos usuários dêem vida às suas ideias vibrantes."

Os supercomputadores TPU v4 estão disponíveis para pesquisadores e desenvolvedores de IA no cluster de ML do Google Cloud em Oklahoma, inaugurado no ano passado. Com nove exaflops de desempenho agregado máximo, o Google acredita que o cluster é o maior hub de ML disponível publicamente que opera com 90% de energia livre de carbono. Confira o artigo de pesquisa TPU v4 aqui.