24 de abril de 2024

A ascensão de Sora: como a IA é redeficonhecendo o cenário da criação de conteúdo de vídeo

by Zhauhazyn Shaden

Publicado: 24 de abril de 2024 às 8h06 Atualizado: 24 de abril de 2024 às 8h07

by Anastasia O

Editado e verificado: 24 de abril de 2024 às 8h06

Em Breve

Sora é um modelo progressivo de IA de texto para vídeo que promete mudar completamente o jogo da criação de vídeo.

A Adobe revelou recentemente planos para integrar ferramentas generativas de IA em seus Premiere Pro Programas. Esta mudança, que inclui conceder aos usuários acesso a ferramentas como OpenAISora, diretamente no Premiere Pro, visa enriquecer o software com recursos alimentados por IA, como manipulação de cena e remoção de distrações.

Apesar OpenAIEmbora o Sora não esteja atualmente acessível ao público, a Adobe demonstrou sua integração ao Premiere Pro como um recurso experimental sem fornecer um cronograma específico para seu lançamento.

Estamos entusiasmados em anunciar o avanço #GenerativeAI recursos alimentados pelo novo #AdobeFirefly modelo de vídeo. Dê uma olhada em adição de objetos, remoção de objetos e extensão generativa. Tudo em breve para #PremierePro! 💥 https://t.co/Yg1NxffVNR pic.twitter.com/wa5ivFXAPG
- Adobe (@Adobe) 15 de abril de 2024

Sora é um modelo progressivo de IA de texto para vídeo que chamou a atenção devido à sua promessa de mudar completamente o jogo da criação de vídeo. Uma ferramenta promissora de efeitos extremos para todos que têm algo a ver com produção de vídeo, motion design e animação, essa tecnologia também traz desafios cruciais.

Vamos explorar todas as facetas do incrível e tão aguardado Sora.

Texto para vídeo?

Essencialmente, o Sora foi projetado para criar vídeos realistas e visualmente cativantes gerados a partir de instruções de texto. Sendo uma aplicação inovadora de IA, Sora pretende agilizar o processo de produção de vídeo e oferecer novas possibilidades de processos narrativos e de comunicação visual.

A funcionalidade do Sora está enraizada na sua capacidade de interpretar e executar comandos textuais para criar conteúdo de vídeo atraente. Aproveitando técnicas avançadas de aprendizagem profunda e compreensão da linguagem, Sora processa o texto de entrada e constrói cenas visuais correspondentes com personagens, cenários e movimentos. Este processo envolve uma interação sofisticada entre o processamento de linguagem natural e a síntese de vídeo, produzindo resultados que se alinham estreitamente com as instruções textuais fornecidas.

Ao desenvolver Sora, OpenAIA equipe do Enfatizou a importância de criar um modelo de IA que encapsule uma compreensão profunda da linguagem e uma compreensão robusta dos princípios da narrativa visual. Ao integrar avanços de última geração em compreensão de linguagem natural e síntese de vídeo, o design de Sora prioriza a fusão coesa de expressão linguística e representação visual.

Como isso é possível?

Assim, Sora funciona como um modelo de difusão semelhante a outras IAs generativas que trabalham com texto para imagem. Isso significa que Sora inicia cada quadro com ruído estático e depois transforma as imagens em representações que se assemelharão ao prompt fornecido e à descrição do que é esperado. Isso é possível graças ao aprendizado de máquina. Os vídeos Sora podem durar até 60 segundos.

Abordando a consistência temporal, Sora inova ao considerar múltiplos quadros de vídeo simultaneamente, garantindo coerência à medida que os objetos se movem dentro da cena.

Incorporando modelos de difusão e de transformador, Sora segue uma abordagem híbrida semelhante a GPTarquitetura do transformador. Jack Qiao destaca os pontos fortes complementares destes modelos, com a difusão destacando-se na geração de texturas, mas faltando na composição global, enquanto os transformadores se destacam na determinação de layout de alto nível. A combinação aproveita a capacidade do transformador de organizar patches enquanto o modelo de difusão preenche os detalhes.

Na implementação do Sora, as imagens são subdivididas em fragmentos tridimensionais para acomodar a persistência temporal. Isto reflete o processo de tokenização em modelos de linguagem, onde os patches representam elementos de um conjunto de imagens. Além disso, uma etapa de redução de dimensionalidade é aplicada para otimizar a eficiência computacional.

Para melhorar a fidelidade do vídeo, Sora emprega uma técnica de recaptação semelhante a DALL E 3, em que GPT reescreve os prompts do usuário com detalhes adicionais antes da geração do vídeo. Isso serve como uma forma de refinamento imediato automático, garantindo a adesão fiel às informações do usuário.

Quão bom está Sora agora?

OpenAI reconhece várias limitações na iteração atual do Sora. Notavelmente, Sora carece de uma compreensão inerente da física, o que significa que pode não aderir consistentemente aos princípios físicos do mundo real.

Por exemplo, o modelo não consegue compreender as relações de causa e efeito, resultando em potenciais inconsistências. Da mesma forma, o posicionamento espacial dos objetos pode apresentar mudanças não naturais.

Quando se trata de confiabilidade, o status do Sora permanece incerto. Embora OpenAI apresentou exemplos que demonstram alta qualidade, não está claro até que ponto ocorreu a exibição seletiva. Em aplicações de texto para imagem, gerar múltiplas imagens e escolher a melhor é uma prática comum. O número exato de imagens produzidas pelo OpenAI equipe para apresentar os vídeos em seu artigo de anúncio não foi divulgado. Esta falta de transparência pode potencialmente impedir a adoção, especialmente se for necessária a geração de centenas ou milhares de vídeos para obter apenas um resultado utilizável. Para aliviar esta incerteza, devemos esperar por uma acessibilidade mais ampla da ferramenta.

Onde Sora será útil?

Os recursos do Sora se estendem à criação de vídeos do zero, ao alongamento de filmagens existentes e ao preenchimento contínuo de quadros ausentes nos vídeos.

Semelhante a como as ferramentas de IA generativas de texto para imagem revolucionaram a criação de imagens sem habilidades técnicas de edição, Sora pretende simplificar a produção de vídeo sem a necessidade de experiência em edição de imagens. Aqui estão alguns cenários de aplicação principais:

Sora permite a criação de vídeos curtos personalizados para plataformas de mídia social como TikTok, Instagram Reels e YouTube Shorts. É particularmente excelente na elaboração de conteúdo que pode ser difícil ou impraticável de filmar usando métodos tradicionais.
Tradicionalmente, empreendimentos caros, como produção de anúncios, vídeos promocionais e demonstrações de produtos, podem ser significativamente simplificados com ferramentas de IA de texto para vídeo, como o Sora, que oferecem soluções econômicas.
Mesmo que os vídeos gerados por IA não sejam integrados aos produtos finais, eles servem como ferramentas valiosas para ilustrar conceitos rapidamente. Os cineastas podem utilizar IA para maquetes de cenas antes da filmagem, enquanto os designers podem visualizar os produtos antes da fabricação. Por exemplo, uma empresa de brinquedos poderia contratar Sora para criar uma maquete de IA de um novo brinquedo de navio pirata para avaliar sua viabilidade antes da produção em massa.
Os dados sintéticos revelam-se inestimáveis em situações em que questões de privacidade ou viabilidade impedem a utilização de dados reais. Embora normalmente aplicados a dados numéricos, como registros financeiros e informações de identificação pessoal, dados sintéticos com propriedades semelhantes podem ser gerados para uma acessibilidade mais ampla. No domínio do vídeo, os dados sintéticos são úteis para treinar sistemas de visão computacional.

Desafios associados a Sora

Por ser um produto recém-lançado, os riscos do Sora ainda não estão totalmente elucidados; no entanto, espera-se que sejam semelhantes aos encontrados nos modelos de texto para imagem.
Sem salvaguardas suficientes, Sora tem o potencial de criar conteúdo questionável ou inapropriado, como vídeos contendo violência, imagens gráficas, material sexualmente explícito, representações depreciativas de grupos específicos e a promoção ou glorificação de atividades ilegais. O que constitui conteúdo impróprio pode diferir muito dependendo do usuário (como uma criança versus um adulto) e das circunstâncias sob as quais os vídeos são gerados (como um vídeo educativo sobre os perigos dos fogos de artifício mostrando inadvertidamente cenas gráficas).
Os vídeos de exemplo compartilhados por OpenAI demonstram que uma das habilidades notáveis de Sora é sua habilidade em criar cenários imaginativos que vão além da realidade. No entanto, esta capacidade também o torna vulnerável à geração de “falsa profunda”vídeos, onde indivíduos ou situações genuínas são alteradas para transmitir falsidades, seja involuntariamente (desinformação) ou intencionalmente (desinformação). Esse conteúdo pode levar a consequências substanciais.
Os resultados produzidos pelos modelos generativos de IA estão inerentemente ligados aos dados nos quais foram treinados. Portanto, preconceitos ou estereótipos culturais incorporados nos dados de treinamento podem aparecer nos vídeos gerados, possivelmente perpetuando problemas semelhantes.

O que faz o OpenAI A equipe faz para prevenir os riscos mencionados acima?

Atualmente, Sora está acessível exclusivamente para “Equipa vermelha”Pesquisadores – especialistas encarregados de identificar e mitigar possíveis problemas com o modelo. Esses pesquisadores se esforçam para gerar conteúdos que possam apresentar os riscos apontados, permitindo OpenAI para abordar e retificar quaisquer preocupações antes do lançamento público de Sora.

Sora pode me deixar sem emprego?

A capacidade da Sora de produzir conteúdo de vídeo de primeira linha com base em dicas textuais tem o potencial de instigar transformações notáveis no cenário do emprego criativo. Posições convencionais em videografia, efeitos especiais e animação correm o risco de obsolescência diante de tais avanços. Embora alguns criativos possam evoluir, aperfeiçoando a experiência na supervisão das funções da IA, na utilização ética da IA e na orientação da direção criativa para aproveitar as capacidades da IA, a viabilidade desta transição para todos permanece incerta.

Por outro lado, ao reduzir os obstáculos técnicos e financeiros associados à produção de vídeo, Sora tem o potencial de capacitar uma gama mais ampla de indivíduos para criar conteúdo de alta qualidade. Esta democratização pode promover um aumento na distribuição de conteúdos variados e criativos. Embora possa ser necessário que entidades de comunicação social e criadores de conteúdos estabelecidos ajustem e introduzam abordagens inovadoras, esta evolução poderá anunciar resultados positivos.

De qualquer forma, após o lançamento em massa, Sora sem dúvida causará mudanças nas indústrias de vídeo e relacionadas, bem como na criação de conteúdo pessoal.

Implicações de longo prazo OpenAI Sora

À medida que Sora se consolida nos fluxos de trabalho profissionais, seu impacto duradouro se desenrola:

Desbloqueando casos de uso de alto valor: a integração da Sora entre setores promete aplicações transformadoras, incluindo:

Produção acelerada de conteúdo: Sora agiliza a criação de mídia nos setores de VR, AR, jogos e entretenimento tradicional, agilizando os ciclos de produção e facilitando a idealização.
Experiências personalizadas: surge conteúdo personalizado com curadoria de Sora para atender às preferências individuais, remodelando paradigmas educacionais e de entretenimento para atender a diversos estilos e gostos de aprendizagem.
Adaptação em tempo real: a edição dinâmica de vídeo habilitada pelo Sora permite modificações instantâneas no conteúdo, atendendo às preferências do público e feedback em tempo real.
Desfocando os limites digitais: a sinergia de Sora com VR e AR confunde os limites entre os reinos físico e digital, apresentando novas experiências imersivas e oportunidades de narrativa interativa.

Em essência, o advento do Sora anuncia uma era transformadora na criação de conteúdo baseada em IA, remodelando indústrias, narrativas e experiências do usuário de maneiras profundas.

Tags:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Zhauhazyn é redator e especialista em sociologia. Fascinada pela intrincada dinâmica dos Estudos de Ciência e Tecnologia, ela se aprofunda no domínio da Web3 com uma paixão fervorosa por blockchain.

Mais artigos

Zhauhazyn Shaden