A ciência de dados é um trabalho árduo e não um feitiço de mágica. Se o desempenho de um modelo de IA ocorre conforme o planejado depende de quão bem ele foi treinado e não existe uma abordagem “coringa” para o processo de treinamento de modelos de IA.
A escalabilidade é uma das considerações mais complicadas ao treinar modelos de IA, já que o treinamento pode ser especialmente desafiador quando um modelo consome muitos recursos para ser processado completamente em qualquer plataforma de computação única.
Um modelo pode ter crescido tanto que excede o limite de memória de uma única plataforma de processamento ou um acelerador exigiu o desenvolvimento de algoritmos ou infraestrutura especiais. Os conjuntos de dados de treinamento podem crescer tanto que o treinamento leva um tempo excessivamente longo e se torna proibitivamente caro.
Mas a escalabilidade pode ser algo fácil de lidar se não exigirmos que o modelo seja particularmente bom em sua tarefa atribuída. Porém, à medida que aumentamos o nível de precisão de inferência necessário, o processo de treinamento pode se estender por mais tempo e consumir cada vez mais recursos.
A solução desse obstáculo não é apenas uma questão de lançar um hardware mais poderoso para o problema. Como em muitas cargas de trabalho de aplicativos, não é possível confiar apenas em processadores mais rápidos para sustentar o dimensionamento linear, à medida que a complexidade do modelo de IA aumenta.
Por isso, o treinamento distribuído pode ser necessário. Se os componentes de um modelo puderem ser particionados e distribuídos para nós otimizados para processamento em paralelo, o tempo necessário para treinar um modelo poderá ser reduzido significativamente. No entanto, a paralelização pode, por si só, ser um exercício árduo, considerando a fragilidade de um modelo estatístico.
O modelo pode falhar espetacularmente se alguma mudança aparentemente menor no gráfico – suas camadas, nós, conexões, pesos, hiperparâmetros etc. – interromper a capacidade do modelo de fazer inferências precisas. Mesmo se deixarmos o gráfico subjacente intacto e tentar particionar as camadas do modelo em componentes distribuídos, precisaremos recombinar seus resultados em um conjunto coeso.
Se não tomarmos cuidado, essa questão pode resultar em um modelo recombinado que de alguma forma é distorcido no desempenho de sua tarefa designada.
Em toda a profissão de ciência de dados, observamos a inovação no treinamento do modelo de IA, com grande parte focada em como fazê-lo de forma eficiente em multiclouds e outros ambientes distribuídos.
Nesse sentido, o Google e a Microsoft lançaram recentemente novas estruturas para o treinamento de modelos de deep learning: o GPipe do Google e o PipeDream da Microsoft. As estruturas seguem princípios de escala semelhantes.
Embora diferente em vários aspectos, o GPipe e o PipeDream compartilham uma visão comum para o treinamento distribuído de modelos de IA. Essa visão envolve algumas necessidades:
O que distingue essas duas estruturas é a extensão em que elas suportam o desempenho otimizado dos fluxos de trabalho de treinamento para modelos com camadas sequenciais (que é sempre mais difícil de paralelizar) e em ambientes de destino mais complexos, como multicloud, mesh e cenários cloud-to-edge.
O GPipe do Google é adequado para treinamento paralelo rápido de redes neurais profundas que incorporam várias camadas sequenciais. O que ele faz automaticamente:
O PipeDream da Microsoft também explora o paralelismo de modelo e dados, mas é mais voltado para melhorar o desempenho de fluxos de trabalho complexos de treinamento de IA em ambientes distribuídos.
Um dos projetos de treinamento em IA da iniciativa Project Fiddle da Microsoft Research, o PipeDream realiza isso automaticamente porque pode:
Mais detalhes sobre as duas estruturas estão em seus respectivos documentos de pesquisa: GPipe e PipeDream , ambos em inglês.
O treinamento é um recurso crítico do sucesso da IA, e mais profissionais da IA estão distribuindo esses fluxos de trabalho entre multiclouds, malhas e arestas distribuídas.
No futuro, o Google e a Microsoft devem alinhar suas respectivas estruturas em uma abordagem de consenso do setor para treinamento de IA distribuído. Eles podem querer considerar o envolvimento da Uber nesse sentido.
A empresa de compartilhamento de viagens já tem uma reivindicação maior pela distinção de primeira no mercado em estruturas de treinamento distribuídas. A empresa abriu seu projeto Horovod há três anos. O projeto, hospedado pela AI Foundation, da Linux Foundation, foi integrado aos principais ambientes de modelagem de IA, como TensorFlow, PyTorch, Keras e Apache MXNet.
A escalabilidade deve ser uma consideração essencial de toda e qualquer estrutura desse tipo. No momento, o Horovod possui alguns recursos úteis a esse respeito, mas não possui o foco de escala acentuado que o Google e a Microsoft incorporaram em seus respectivos projetos.
Em termos de escalabilidade, o Horovod pode ser executado em GPUs únicas ou múltiplas e até em vários hosts distribuídos sem alterações de código. Ele é capaz de agrupar pequenas operações, automatizar o ajuste distribuído e intercalar os pipelines de comunicação e computação.
As preocupações de escalabilidade variam de acordo com o cenário de treinamento que você considera. Independentemente de qual estrutura se torne dominante – GPipe, PipeDream, Horovod ou qualquer outra coisa – seria bom ver o desenvolvimento da indústria de fluxos de trabalho de referência para implantação distribuída dos seguintes cenários de treinamento especializados:
Essa lista nem começa a sugerir a diversidade de fluxos de trabalho de treinamento de IA distribuídos que prevalecerão no futuro. Na medida em que temos estruturas de referência padrão em vigor em 2020, os cientistas de dados terão uma base sólida para levar a revolução da IA em todas as direções.
A Pure Storage está redefinindo sua estratégia de mercado com uma abordagem que abandona o…
A inteligência artificial (IA) consolidou-se como a principal catalisadora de novos unicórnios no cenário global…
À primeira vista, não parece grande coisa. Mas foi na pequena cidade de Pornainen, na…
O processo de transição previsto na reforma tributária terá ao menos um impacto negativo sobre…
O que antes parecia uma aliança estratégica sólida começa a mostrar rachaduras. Segundo reportagem do…
O Departamento de Defesa dos Estados Unidos firmou um contrato de US$ 200 milhões com…