• bandeira

OpenAI Point E: Crie uma nuvem de pontos 3D a partir de formas de onda complexas em minutos em uma única GPU

Em um novo artigo Point-E: um sistema para gerar nuvens de pontos 3D a partir de sinais complexos, a equipe de pesquisa da OpenAI apresenta o Point E, um sistema de síntese condicional de texto em nuvem de pontos 3D que usa modelos de difusão para criar formas 3D variadas e complexas orientadas por texto complexo dicas.em minutos em uma única GPU.
O incrível desempenho dos modelos de geração de imagem de última geração estimulou a pesquisa na geração de objetos de texto 3D.No entanto, ao contrário dos modelos 2D, que podem gerar saída em minutos ou até segundos, os modelos geradores de objetos normalmente requerem várias horas de trabalho de GPU para gerar uma única amostra.
Em um novo artigo Point-E: um sistema para gerar nuvens de pontos 3D a partir de sinais complexos, a equipe de pesquisa da OpenAI apresenta o Point·E, um sistema de síntese condicional textual para nuvens de pontos 3D.Essa nova abordagem usa um modelo de propagação para criar formas 3D variadas e complexas a partir de sinais de texto complexos em apenas um ou dois minutos em uma única GPU.
A equipe está focada no desafio de converter texto em 3D, o que é fundamental para democratizar a criação de conteúdo 3D para aplicativos do mundo real, desde realidade virtual e jogos até design industrial.Os métodos existentes para converter texto em 3D se enquadram em duas categorias, cada uma com suas desvantagens: 1) modelos generativos podem ser usados ​​para gerar amostras com eficiência, mas não podem ser dimensionados com eficiência para diversos e complexos sinais de texto;2) um modelo de texto-imagem pré-treinado para lidar com pistas de texto complexas e variadas, mas essa abordagem é computacionalmente intensiva e o modelo pode facilmente ficar preso em mínimos locais que não correspondem a objetos 3D significativos ou coerentes.
Portanto, a equipe explorou uma abordagem alternativa que visa combinar os pontos fortes das duas abordagens acima, usando um modelo de difusão de texto para imagem treinado em um grande conjunto de pares de texto-imagem (permitindo lidar com sinais diversos e complexos) e um modelo de difusão de imagem 3D treinado em um conjunto menor de pares texto-imagem.conjunto de dados par imagem-3D.O modelo de texto para imagem primeiro faz uma amostra da imagem de entrada para criar uma única representação sintética, e o modelo de imagem para 3D cria uma nuvem de pontos 3D com base na imagem selecionada.
A pilha generativa do comando é baseada em estruturas generativas propostas recentemente para gerar imagens condicionalmente a partir de texto (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Eles usam um modelo GLIDE com 3 bilhões de parâmetros GLIDE (Nichol et al., 2021), ajustado em modelos 3D renderizados, como seu modelo de transformação de texto em imagem, e um conjunto de modelos de difusão que geram nuvens de pontos RGB como seus modelo de transformação.imagens para imagem.modelos 3D.
Enquanto trabalhos anteriores usavam arquiteturas 3D para processar nuvens de pontos, os pesquisadores usaram um modelo simples baseado em transdutor (Vaswani et al., 2017) para melhorar a eficiência.Em sua arquitetura de modelo de difusão, as imagens de nuvem de pontos são primeiro alimentadas em um modelo ViT-L/14 CLIP pré-treinado e, em seguida, as malhas de saída são alimentadas no conversor como marcadores.
Em seu estudo empírico, a equipe comparou o método Point·E proposto com outros modelos 3D generativos em sinais de pontuação de conjuntos de dados de assinatura, segmentação e detecção de objetos COCO.Os resultados confirmam que o Point·E é capaz de gerar diversas e complexas formas 3D a partir de sinais de texto complexos e acelerar o tempo de inferência em uma ou duas ordens de grandeza.A equipe espera que seu trabalho inspire mais pesquisas sobre síntese de texto 3D.
Um modelo de propagação de nuvem de pontos pré-treinado e um código de avaliação estão disponíveis no GitHub do projeto.Documento Point-E: Um sistema para criar nuvens de pontos 3D a partir de pistas complexas está no arXiv.
Sabemos que você não quer perder nenhuma notícia ou descoberta científica.Assine nosso popular boletim informativo Synced Global AI Weekly para receber atualizações semanais de IA.


Horário da postagem: 28 de dezembro de 2022