Como funciona o Dall-E: o gerador AI de texto para imagem

Você notou algumas imagens engraçadas com palavras estranhas escritas ao lado delas circulando no Twitter nestas últimas semanas? Se você viu e ficou curioso em saber como elas são criadas, saiba que é por meio da tecnologia A.I, com um programa desenvolvido por OpenAI. Vamos apresentar, aqui, o DALL-E 2, o software capaz de transforma palavras em um novo idioma e, em seguida, retornar imagens realistas. Interessante não é? Continue conosco para saber tudo sobre o DALL-E 2.

O que é o DALL-E

O DALL-E é um software baseado na tecnologia AI (do inglês: Artificial Intelligence ou IA Inteligência Artificial em português) capaz de transforma palavras em imagens. Muito simples para realizar a tarefa, os usuários inserem um texto, em inglês, e a rede neural gerará uma imagem a partir dele. A ferramenta é desenvolvida pela OpenAI, com apoio da Microsoft e também usando a tecnologia Imagem do Google. A descrição do DALL-E no site da OpenAI diz que é "um novo sistema de AI que pode criar imagens e arte realistas a partir de uma descrição em linguagem natural". E, isso, é o que a ferramenta faz com um desempenho nunca visto antes.

A ferramenta pode criar imagens improváveis, como "Ursinhos de pelúcia comprando mantimentos no antigo Egito". Em janeiro de 2021, a OpenAI já tinha lançado o DALL-E, uma versão do software. Agora, a versão 2, ele é entregue com um sistema mais inteligente e novo chamado – DALL-E 2. (Crédito da imagem © OpenAI)

Os desenvolvedores dizem que "DALL-E 2 capacitará as pessoas a se expressarem criativamente. DALL-E 2 também ajuda a entender como sistemas avançados de IA veem e entendem nosso mundo, o que é fundamental para nossa missão de criar IA que beneficie a humanidade".

Como o DALL-E funciona?

A ferramenta DALL-E é, assim, uma rede neural criada pela OpenAI para gerar imagens a partir de texto. Ela pode combinar conceitos não relacionados e criar versões antropomorfizadas de animais e objetos. Ela trabalha em conjunto com o CLIP, um sistema de visão computacional que a OpenAI já lançou no ano passado. Assim, a rede neural traduz a linguagem humana para uma própria linguagem para depois transformá-la em imagens.

Giannis Daras, Ph.D em ciência da computação, postou exemplos do que chamou de "linguagem própria da AI" no Twitter, veja abaixo:
"Apoploe vesrreaitais significa pássaros", escreveu Daras no Twitter. "Contarra ccetnxniams luryca tanniounons," significa insetos ou pragas".

Uma linguagem secreta

DALL-E-2 possui uma linguagem secreta. "Apoploe vesrreaitais" significa pássaros. "Contarra ccetnxniams luryca tanniounons" significa insetos ou pragas. O prompt "Apoploe vesrreaitais comendo Contarra ccetnxniams luryca tanniounons" fornece imagens de pássaros comendo insetos.

Como é sua interface

A interface do DALL-E é muito simples, composta por uma caixa de texto para inserir texto, um botão para iniciar a conversão e imagens, logo abaixo. Os desenvolvedores explicam como o DALL-E 2 funciona dizendo que "Ele usa um processo chamado 'difusão', que começa com um padrão de pontos aleatórios e ?gradualmente altera esse padrão para uma imagem quando reconhece aspectos específicos dessa imagem".

Como ele funciona em vídeo

DALL-E já está disponível para todos?

Por enquanto, a nova versão do DALL-E está disponível apenas para um pequeno grupo de pessoas para evitar uso indevido que possa prejudicar os usuários. Mas a boa notícia é que você pode entrar na lista de espera explicando por que gostaria de testar o programa e talvez os desenvolvedores lhe concedam acesso antecipado. Em primeiro lugar você deve criar uma conta, para ficar em espera - clique no link acima publicado.

Em breve, o software será adicionado à API para que possa ser usado por desenvolvedores de terceiros. Enquanto isso, você pode testar a versão "lite" do DALL-E: DALL-E Mini, que também cria imagens a partir de texto e é de código aberto. Embora, às vezes, fique indisponível devido a um grande número de solicitações.

Foto: © © OpenAI.

Nosso conteúdo é produzido em colaboração com especialistas em tecnologia da informação sob o comando de Jean-François Pillou, fundador do CCM.net. CCM é um site sobre tecnologia líder em nível internacional e está disponível em 11 idiomas.
Veja também
Este documento, intitulado 'Como funciona o Dall-E: o gerador AI de texto para imagem', está disponível sob a licença Creative Commons. Você pode copiar e/ou modificar o conteúdo desta página com base nas condições estipuladas pela licença. Não se esqueça de creditar o CCM (br.ccm.net) ao utilizar este artigo.

Assine nossa newsletter!

Assine nossa newsletter!