Infoglobo

Após ChatGPT e Dall-E, agora é a vez dos vídeos

Startup Runway anuncia o Gen 2, sistema de inteligência artificial que gera sequência de imagens a partir de descrição em texto

Da Bloomberg NOVA YORK

Ainteligência artificial (IA) fez um progresso notável com imagens estáticas. Serviços como Dall-E e o Stable Diffusion criaram fotografias lindas. O ChatGPT, de textos, já se popularizou. Agora, a startup Runway AI Inc. está partindo para a próxima etapa: criar vídeos.

Ontem, a Runway anunciou o sistema Gen 2, que é capaz de gerar pequenos trechos de vídeo a partir de algumas palavras. Internautas digitam uma descrição do que querem ver, como, “um gato andando na chuva”, e o sistema gera um clipe de três segundos mostrando exatamente isso, ou algo próximo. É possível anexar uma imagem como ponto de referência.

A Runway anunciou que o Gen 2 vai estar disponível a partir de uma lista de espera: as pessoas podem se inscrever para acessá-lo em um canal privado do Discord ao qual a empresa planeja adicionar mais usuários a cada semana.

O lançamento é o maior destaque em geração de vídeos fora de um laboratório. Tanto o Google quanto a Meta mostraram seus projetos no ano passado —com videoclipes curtos apresentando um ursinho de pelúcia lavando pratos ou um veleiro em um lago. Mas nenhuma das empresas anunciou planos para lançar o sistema.

A Runway vem trabalhando em ferramentas de inteligência artificial desde 2018 e arrecadou US$ 50 milhões no ano passado. A startup ajudou a criar a versão original da Stable, um modelo de inteligência artificial texto-paraimagem que, desde então, foi popularizado e desenvolvido pela empresa Stability AI.

Em uma demonstração na semana passada com o cofundador e diretor executivo da Runway, Cris Valenzuela, o Gen 2 foi colocado à prova com o pedido por uma “filmagem de drone de uma paisagem desértica”. Em minutos, o Gen 2 criou um vídeo de poucos segundos e levemente distorcido, que parecia ser a filmagem de drone sobre um deserto. Aparecia um céu azul com nuvens e o sol com seus raios destacando as dunas marrons.

Há pontos fortes e fracos no sistema: uma imagem em close de um globo ocular parece nítida e humana, enquanto um clipe de um andarilho na selva mostra que há problemas para gerar pernas de aparência realista e movimentos de caminhada. O modelo ainda não sabe como retratar com precisão objetos em movimento, disse Valenzuela: “Você pode gerar uma perseguição de carro, mas às vezes os carros podem voar”.

Vídeos criados com o Gen 2 são silenciosos, mas Valenzuela disse que a empresa está pesquisando a geração de áudio, para criar vídeos e sons.

Economia

pt-br

2023-03-21T07:00:00.0000000Z

2023-03-21T07:00:00.0000000Z

https://infoglobo.pressreader.com/article/281857237778690

Infoglobo Conumicacao e Participacoes S.A.