Nova tecnologia IA da NVIDIA é capaz de gerar imagem usando texto

Imagem de: Nova tecnologia IA da NVIDIA é capaz de gerar imagem usando texto

A NVIDIA apresentou um novo sistema de Inteligência Artificial (IA) chamado GauGAN2 capaz de criar imagens de paisagens naturais que não existem.

Esse novo sistema é o sucessor do modelo GauGAN e foi projetado para criar arte fotorrealística com uma mistura de palavras e desenhos combinando técnicas como mapeamento de segmentação, pintura interna e geração de texto.

"Em comparação com modelos de última geração especificamente para aplicativos de texto para imagem ou segmentação de mapa para imagem, a rede neural por trás do GauGAN2 produz uma maior variedade e qualidade de imagens", disse Isha Salian, membro da A equipe de comunicações corporativas da Nvidia.

"Em vez de precisar extrair cada elemento de uma cena imaginada, os usuários podem inserir uma frase curta para gerar rapidamente os principais recursos e o tema de uma imagem, como uma cordilheira coberta de neve. Esse ponto de partida pode ser personalizado com esboços para tornar uma montanha específica mais alta ou adicionar algumas árvores no primeiro plano ou nuvens no céu", acrescentou.

Imagens geradas de texto

O sistema de IA para criar imagens geradas de texto da NVIDIA foi lançado em 2019 e recebeu o nome de GauGAN em homenagem ao pintor pós-impressionista Paul Gauguin.

O GauGAN2 é uma atualização que recebeu vários aprimoramentos e foi treinado com mais de um milhão de imagens públicas do Flickr.

Além disso, ele é capaz de entender as relações entre objetos como água, neve, árvores, flores, arbustos, morros e montanhas. Ele também sabe que estes objetos mudam dependendo da estação.

GauGAN e GauGAN2 são um tipo de sistema conhecido como rede adversária gerativa (GAN), que consiste em um gerador e discriminador.

O gerador coleta amostras, por exemplo, imagens emparelhadas com texto e prevê quais dados (palavras) correspondem a outros dados (elementos de uma imagem de paisagem).

O gerador é treinado para enganar o discriminador, que avalia se as previsões parecem realistas. Embora as transições do GAN sejam inicialmente de baixa qualidade, elas melhoram com o feedback do discriminador.

Ao contrário do GauGAN, o GauGAN2 foi treinado em 10 milhões de imagens e pode transformar descrições em linguagem natural em imagens de paisagens.

Digitar uma frase como "pôr do sol na praia" irá gera a cena, ao adicionar adjetivos como "pôr do sol em uma praia rochosa" ou trocar "pôr do sol" para "tarde" ou "dia chuvoso" modifica a imagem instantaneamente.

GauGAN2

Com o GauGAN2, os usuários podem gerar um mapa de segmentação, um contorno de alto nível que mostra a localização dos objetos na cena.

A partir daí, eles podem mudar para o desenho, ajustando a cena com esboços ásperos usando rótulos como "céu", "árvore", "pedra" e "rio" e permitindo que o pincel da ferramenta incorpore os rabiscos nas imagens.

Brainstorming baseado em IA

O GauGAN2 é semelhante ao sistema DALL-E da OpenAI, lançado no inicio deste e que pode gerar imagens a partir de descrições textuais.

Sistemas como GauGAN2 e DALL-E são essencialmente geradores de ideias visuais que podem ser utilizados na produção de filmes, softwares, videogames, produtos, moda e design de interiores.

De acordo com a NVIDIA, a primeira versão do GauGAN já foi usada para criar arte conceitual para filmes e videogames.

A NVIDIA também disse que planeja tornar o GauGAN2 um sistema de código aberto no GitHub junto com uma demonstração interativa no Playground, para incentivar a pesquisa de aprendizado profundo.

Mas, modelos gerativos como este também possuem algumas deficiências, um exemplo disso é o potencial de distinguir uma trajetória ou direção, linha ou segmento diagonal.

A OpenAI usou um modelo especial chamado CLIP no DALL-E para melhorar a qualidade da imagem, mostrando as melhores amostras entre as centenas de opções geradas pela descrição.

Mas, um estudo descobriu que o CLIP passou a classificar erroneamente fotos de indivíduos negros em uma taxa mais elevada e associou as mulheres a ocupações estereotipadas como "babá" e "governanta".

Paisagem gerada pelo GauGAN2
Paisagem gerada pelo GauGAN2

Em alguns canais de imprensa, a NVIDIA se recusou a dizer como, ou se treinou o GauGAN2 com termos que podem levar ao preconceito.

"O modelo tem mais de 100 milhões de parâmetros e levou menos de um mês para treinar, com imagens de treinamento de um conjunto de dados proprietário de imagens de paisagens. Este modelo específico é focado exclusivamente em paisagens, e fizemos uma auditoria para garantir que não houvesse pessoas nas imagens de treinamento... GauGAN2 é apenas uma demonstração de pesquisa", explicou um porta-voz da Nvidia por e-mail.

Este tipo de tecnologia de IA ainda é muito recente e consequentemente não apresenta um desempenho 100% como o esperado.

Outras tecnologias como a deepfake conhecida como StyleGAN, que pode gerar imagens realistas de pessoas que nunca existiram, enfrentaram problemas parecidos. No entanto, elas melhoraram bastante no últimos anos.

Via: Venture Beat