Apple apresenta GAUDI, uma IA capaz de criar ambientes imersivos em 3D

Imagine você ter apenas uma foto de uma cozinha e o computador ser capaz de criar um vídeo em 3D como se você estivesse entrando nela com a câmera ligada.

Isso é o que pretende fazer o GAUDI, um novo sistema baseado em inteligência artificial capaz de gerar imagens de espaços tridimensionais a partir de uma imagem fixa e uma ordem dada por texto.

O projeto ainda está nas fases iniciais e deve evoluir nos próximos anos.

Seu nome é em homenagem ao arquiteto catalão Antoni Gaudí, responsável por obras icônicas da cidade de Barcelona como a Sagrada Família e o Parc Güell.

Apresentamos GAUDI, um modelo generativo capaz de capturar a distribuição de cenas 3D complexas e realistas que podem ser renderizadas de forma imersiva a partir de uma câmera em movimento.

Traduzindo, tendo como origem uma simples foto, é possível criar imagens em movimento de espaços, como se estivesse sido feito um vídeo no ambiente.

Exemplo de imagem criada a partir de uma foto

Dada a ordem “caminhar para a cozinha”, tomando como referência uma imagem fixa, GAUDI pode gerar planos de diferentes níveis para construir artificialmente um percurso visual de movimento.

A pesquisa por trás deste projeto detalha que este modelo usa uma abordagem escalável de dois estágios. Primeiro, o sistema é responsável por aprender uma representação do ambiente, adequada para diferentes ângulos de câmera. A distribuição dessas representações é então modelada em um espaço navegável.

O projeto ainda está em suas fases iniciais, por isso as imagens ainda são de baixa resolução. Mas já é possível ter uma noção da tecnologia e suas capacidades.

Claro que isso só reforça os rumores de que a Apple estaria trabalhando sério em dispositivos de realidade virtual.

E pelo andar da carruagem, podemos esperar por coisas realmente impressionantes.

É um assunto bastante técnico, mas se você ficou interessado em descobrir mais profundamente como anda o projeto, pode ver sua evolução na página oficial da Apple no Github.