O Começo
É muito difícil definir quando o primeiro vídeo foi gerado utilizando uma Inteligência Artificial, mas em 2016, o DeepMind, uma empresa de inteligência artificial pertencente à Alphabet Inc. (empresa-mãe do Google), publicou um artigo descrevendo o DeepDream, uma técnica que pode gerar imagens e vídeos usando redes neurais convolucionais. Embora o DeepDream fosse mais conhecido por gerar imagens, também podia ser aplicado a vídeos, gerando sequências visuais surreais.
Onde estamos
Ao longo dos anos vimos várias empresas desenvolvendo seus produtos que geram vídeos através de textos, imagens e até outros vídeos. Como exemplo temos:
- Nvidia:
- Nvidia desenvolveu o StyleGAN, uma arquitetura para Generative Adversarial Networks (GANs), inicialmente focada na geração de imagens realistas
- IBM:
- IBM possui o IBM Watson, uma plataforma de IA que oferece uma variedade de serviços e APIs, incluindo serviços de visão computacional e processamento de linguagem natural que podem ser aplicados à geração de vídeos.
- Adobe:
- Adobe Sensei é a plataforma de IA da Adobe, que inclui uma variedade de recursos de IA para várias aplicações, incluindo a geração de conteúdo multimídia.
- Microsoft:
- A Microsoft possui vários serviços e tecnologias de IA, incluindo o Azure AI, que oferece uma variedade de ferramentas para desenvolvimento e implementação de soluções de IA, incluindo aquelas relacionadas à geração de vídeos.
- OpenAI:
- OpenAI desenvolveu o GPT (Generative Pre-trained Transformer) que, embora inicialmente concebido para geração de texto, pode ser adaptado para a geração de vídeos.
Iremos focar nessa última, a OpenAI que recentemente divulgou seu novo modelo de Inteligência Artificial chamada Sora e chocou o mundo com o realismo apresentado. Principalmente se comparado com vídeos gerados por Inteligência Artificial a pouco menos de um ano, onde as representações pareciam ter saído de um sonho (em alguns casos, de um pesadelo), como esse comercial de cerveja:
Até mesmo um vídeo do Will Smith comendo spaghetti:
Agora, vamos falar da Sora, a plataforma oferece uma variedade de recursos e ferramentas alimentados por IA que podem ser usados para aprimorar diferentes aspectos dos vídeos. Alguns dos recursos incluem:
- Edição Automatizada: Sora pode automatizar tarefas de edição de vídeo, como corte, adição de transições, ajuste de cores e até mesmo criação de legendas, economizando tempo e esforço para os criadores de conteúdo.
- Análise de Conteúdo: A IA da Sora pode analisar o conteúdo do vídeo, identificando objetos, rostos, expressões faciais e até mesmo emoções dos personagens. Isso pode ajudar os criadores a entender melhor o engajamento do público e ajustar seus vídeos de acordo.
- Personalização Dinâmica: Sora permite a personalização dinâmica de vídeos, adaptando o conteúdo com base nas preferências e comportamentos do espectador. Isso pode ser útil para publicidade direcionada e marketing personalizado.
- Geração de Conteúdo Visual: A IA da Sora pode ajudar na geração de conteúdo visual, como animações, gráficos e efeitos especiais, adicionando um toque profissional aos vídeos.
- Recomendações Inteligentes: Com base na análise de dados e no aprendizado de máquina, Sora pode oferecer recomendações inteligentes sobre o que funciona melhor em termos de edição, estilo visual e distribuição de conteúdo.
Abaixo alguns exemplos do que foi apresentado pela OpenAI:
Mais resultados podem ser encontrados no site oficial
https://openai.com/research/video-generation-models-as-world-simulators
Riscos
Infelizmente toda nova tecnologia também apresenta riscos. Com a evolução dessa tecnologia, temos alguns perigos como o DeepFake (é uma técnica de manipulação de mídia que utiliza inteligência artificial, especialmente aprendizado profundo (deep learning), para criar vídeos, áudios ou imagens falsas que aparentam ser autênticos), a aplicação de golpes utilizando pessoas famosas e/ou suas vozes e até mesmo o colapso de algumas profissões, como por exemplo os profissionais que fazem Stock Footage (clipes de vídeo pré-gravados que são disponibilizados para uso em produções audiovisuais, como filmes, comerciais, vídeos promocionais, etc. Esses clipes são criados para serem genéricos o suficiente para serem utilizados em uma variedade de contextos e podem retratar uma ampla gama de temas, como natureza, pessoas, cidades, animais, entre outros.).
Vantagens
Falamos sobre os riscos, agora sobre as vantagens que essa tecnologia nos trás. Irá agilizar e muito trabalhos de edição de vídeos, algo que já vem ocorrendo em softwares de edição, em que um trabalho que demorava horas agora é feito em poucos cliques utilizando uma IA, como remover uma pessoa/objeto de alguma foto, com isso o custo de produção também é diminuído. Poderá ajudar artistas a terem ideias ou até mesmo por onde começar, usando a IA como apoio para despertar a criatividade.
Estamos apenas no começo da tecnologia, apesar dos vídeos apresentados pela OpenAI possuírem uma qualidade absurda e nunca visto antes, ainda conseguimos perceber pequenos erros, principalmente em cenas mais rápidas, que apresentam uma rápida mudança de perspectiva, um movimento mais veloz de algum objeto e/ou corpo. Com certeza seremos surpreendidos ainda mais quando a ferramenta for lançada e estiver nas mãos do público, para atingirmos seu potencial máximo e com isso gerar novas iterações dessa tecnologia.