AI Wiki Arte Educación Software Tecnología
Abril 24, 2024

El ascenso de Sora: cómo se recupera la IAdefiDefinir el panorama de la creación de contenido de vídeo

En Resumen

Sora es un modelo progresivo de inteligencia artificial de texto a video que promete cambiar por completo el juego de la creación de videos.

Adobe ha revelado recientemente planes para integrar herramientas de inteligencia artificial generativa en su Premiere Pro software. Este movimiento, que incluye otorgar a los usuarios acceso a herramientas como OpenAISora directamente dentro de Premiere Pro tiene como objetivo enriquecer el software con capacidades impulsadas por IA, como manipulación de escenas y eliminación de distracciones.

Aunque OpenAISora actualmente no es accesible al público, Adobe demostró su integración en Premiere Pro como una característica experimental sin proporcionar un cronograma específico para su lanzamiento.

Sora es un modelo progresivo de inteligencia artificial de texto a video que llamó la atención debido a su promesa de cambiar por completo el juego de la creación de videos. Esta tecnología, una herramienta prometedora de efecto extremo para todos los que tienen algo que ver con la producción de vídeo, el diseño de movimientos y la animación, también conlleva desafíos cruciales.

Exploremos todas las facetas del increíble y tan esperado Sora.

¿Texto a vídeo?

Básicamente, Sora está diseñado para crear videos realistas y visualmente cautivadores generados a partir de indicaciones de texto. Como aplicación innovadora de IA, Sora pretende agilizar el proceso de producción de vídeo y ofrecer nuevas posibilidades para los procesos narrativos y la comunicación visual.

La funcionalidad de Sora se basa en su capacidad de interpretar y ejecutar comandos textuales para crear contenido de video atractivo. Aprovechando técnicas avanzadas de aprendizaje profundo y comprensión del lenguaje, Sora procesa el texto ingresado y construye las escenas visuales correspondientes con personajes, escenarios y movimiento. Este proceso implica una interacción sofisticada entre el procesamiento del lenguaje natural y la síntesis de video, produciendo resultados que se alinean estrechamente con las indicaciones textuales proporcionadas.

Al desarrollar Sora, OpenAIEl equipo enfatizó la importancia de crear un modelo de IA que encapsule una comprensión profunda del lenguaje y una comprensión sólida de los principios de la narración visual. Al integrar avances de última generación en la comprensión del lenguaje natural y la síntesis de vídeo, el diseño de Sora prioriza la fusión cohesiva de la expresión lingüística y la representación visual.

¿Cómo es posible?

Entonces, Sora funciona como un modelo de difusión similar a otras IA generativas que funcionan con conversión de texto a imagen. Significa que Sora comienza cada cuadro con ruido estático, luego transforma las imágenes en representaciones que se parecerán al mensaje dado y a la descripción de lo que se espera. Esto es posible gracias al aprendizaje automático. Los videos de Sora pueden durar hasta 60 segundos.

Al abordar la coherencia temporal, Sora innova al considerar múltiples fotogramas de vídeo simultáneamente, garantizando la coherencia a medida que los objetos se mueven dentro de la escena.

Al incorporar modelos de difusión y transformadores, Sora sigue un enfoque híbrido similar a GPTLa arquitectura transformadora. Jack Qiao destaca las fortalezas complementarias de estos modelos, con la difusión sobresaliendo en la generación de texturas pero careciendo de composición global, mientras que los transformadores sobresalen en la determinación de diseño de alto nivel. La combinación aprovecha la capacidad del transformador para organizar parches mientras el modelo de difusión completa los detalles.

En la implementación de Sora, las imágenes se subdividen en parches tridimensionales para adaptarse a la persistencia temporal. Esto refleja el proceso de tokenización en los modelos de lenguaje, donde los parches representan elementos de un conjunto de imágenes. Además, se aplica un paso de reducción de dimensionalidad para optimizar la eficiencia computacional.

Para mejorar la fidelidad del vídeo, Sora emplea una técnica de recaptación similar a DESDE EL 3, En el que GPT Reescribe las indicaciones del usuario con detalles adicionales antes de la generación del video. Esto sirve como una forma de refinamiento automático de las indicaciones, asegurando una fiel adherencia a la entrada del usuario.

¿Qué tan bueno es Sora ahora?

OpenAI reconoce varias limitaciones en la versión actual de Sora. En particular, Sora carece de una comprensión inherente de la física, lo que significa que es posible que no se adhiera consistentemente a los principios físicos del mundo real.

Por ejemplo, el modelo no logra captar las relaciones de causa y efecto, lo que genera posibles inconsistencias. Asimismo, la posición espacial de los objetos puede presentar cambios antinaturales.

En lo que respecta a la fiabilidad, el estado de Sora sigue siendo incierto. A pesar de OpenAI ha presentado ejemplos que demuestran alta calidad, no está claro hasta qué punto se ha producido una exhibición selectiva. En las aplicaciones de texto a imagen, generar varias imágenes y elegir la mejor es una práctica común. El número exacto de imágenes producidas por el OpenAI El equipo para mostrar los videos en su artículo de anuncio no se revela. Esta falta de transparencia podría impedir potencialmente la adopción, especialmente si se requiere generar cientos o miles de videos para obtener un solo resultado utilizable. Para aliviar esta incertidumbre, debemos esperar a una mayor accesibilidad de la herramienta.

¿Dónde será útil Sora?

Las capacidades de Sora se extienden a la creación de videos desde cero, el alargamiento de metraje existente y el relleno perfecto de fotogramas faltantes dentro de los videos.

De manera similar a cómo las herramientas de inteligencia artificial generativa de texto a imagen revolucionaron la creación de imágenes sin habilidades técnicas de edición, Sora tiene como objetivo simplificar la producción de video sin necesidad de experiencia en edición de imágenes. A continuación se muestran algunos escenarios de aplicación principales:

  • Sora permite la creación de videos cortos diseñados para plataformas de redes sociales como TikTok, Instagram Reels y YouTube Shorts. Destaca especialmente en la creación de contenidos que pueden resultar difíciles o poco prácticos de filmar utilizando métodos tradicionales.
  • Tradicionalmente, tareas costosas como producir anuncios, videos promocionales y demostraciones de productos pueden simplificarse significativamente con herramientas de inteligencia artificial de texto a video como Sora, que ofrecen soluciones rentables.
  • Incluso si los videos generados por IA no se integran en los productos finales, sirven como herramientas valiosas para ilustrar conceptos rápidamente. Los cineastas pueden utilizar IA para maquetas de escenas antes de filmar, mientras que los diseñadores pueden visualizar productos antes de fabricarlos. Por ejemplo, una empresa de juguetes podría emplear a Sora para crear una maqueta de IA de un nuevo barco pirata de juguete para evaluar su viabilidad antes de la producción en masa.
  • Los datos sintéticos resultan invaluables en situaciones en las que cuestiones de privacidad o viabilidad impiden el uso de datos reales. Si bien normalmente se aplican a datos numéricos, como registros financieros e información de identificación personal, se pueden generar datos sintéticos con propiedades similares para una accesibilidad más amplia. En el ámbito del vídeo, los datos sintéticos son útiles para entrenar sistemas de visión por computadora.

Desafíos asociados con Sora

  • Como producto recién introducido, los riesgos de Sora aún no están completamente aclarados; sin embargo, se prevé que sean similares a los encontrados con los modelos de texto a imagen.
  • Sin salvaguardias suficientes, Sora tiene el potencial de crear contenido objetable o inapropiado, como videos que contienen violencia, imágenes gráficas, material sexualmente explícito, representaciones despectivas de grupos particulares y la promoción o glorificación de actividades ilegales. Lo que constituye contenido inapropiado puede diferir mucho según el usuario (como un niño versus un adulto) y las circunstancias bajo las cuales se generan los videos (como un video educativo sobre los peligros de los fuegos artificiales que muestra inadvertidamente escenas gráficas).
  • Los vídeos de ejemplo compartidos por OpenAI demostrar que una de las habilidades notables de Sora es su habilidad para crear escenarios imaginativos que van más allá de la realidad. Sin embargo, esta capacidad también lo hace vulnerable a generar "falso profundo”videos, donde se modifican personas o situaciones genuinas para transmitir falsedades, ya sea sin intención (desinformación) o intencionalmente (desinformación). Dicho contenido puede tener consecuencias sustanciales.
  • Los resultados producidos por los modelos de IA generativa están inherentemente vinculados a los datos con los que fueron entrenados. Por lo tanto, los prejuicios culturales o estereotipos incrustados en los datos de entrenamiento pueden aparecer en los videos generados, perpetuando posiblemente problemas similares.

Lo que hace el OpenAI ¿Qué hace el equipo para prevenir los riesgos mencionados anteriormente?

Actualmente, Sora es accesible exclusivamente para "equipo rojo”Investigadores: expertos encargados de identificar y mitigar problemas potenciales con el modelo. Estos investigadores se esfuerzan por generar contenidos que puedan presentar los riesgos descritos, permitiendo OpenAI para abordar y rectificar cualquier inquietud antes de la publicación pública de Sora.

¿Puede Sora dejarme sin trabajo?

La capacidad de Sora para producir contenido de vídeo de primer nivel basado en señales textuales tiene el potencial de instigar transformaciones notables dentro del panorama del empleo creativo. Los puestos convencionales dentro de la videografía, los efectos especiales y la animación corren el riesgo de quedar obsoletos ante tales avances. Si bien algunos creativos pueden pivotar perfeccionando su experiencia en la supervisión de las funciones de la IA, su utilización ética y guiando la dirección creativa para aprovechar las capacidades de la IA, la viabilidad de esta transición para todos sigue siendo incierta.

Por otro lado, al reducir los obstáculos técnicos y financieros asociados con la producción de videos, Sora tiene el potencial de capacitar a una gama más amplia de personas para crear contenido de alta calidad. Esta democratización puede fomentar un aumento en la distribución de contenidos variados e inventivos. Si bien puede requerir que entidades de medios establecidas y creadores de contenido ajusten e introduzcan enfoques innovadores, esta evolución podría presagiar resultados positivos.

De cualquier manera, después del lanzamiento masivo, Sora sin duda provocará cambios en las industrias del vídeo y relacionadas, así como en la creación de contenido personal.

Implicaciones a largo plazo de OpenAI Sora

A medida que Sora se afianza en los flujos de trabajo profesionales, su impacto duradero se manifiesta:

Desbloqueo de casos de uso de alto valor: la integración de Sora en todas las industrias promete aplicaciones transformadoras, que incluyen:

  • Producción de contenido acelerada: Sora agiliza la creación de medios en los sectores de realidad virtual, realidad aumentada, juegos y entretenimiento tradicional, acelerando los ciclos de producción y facilitando la ideación.
  • Experiencias personalizadas: surge contenido personalizado curado por Sora para satisfacer las preferencias individuales, remodelando los paradigmas educativos y de entretenimiento para adaptarse a diversos estilos y gustos de aprendizaje.
  • Adaptación en tiempo real: la edición dinámica de video habilitada por Sora permite modificaciones sobre la marcha del contenido, atendiendo a las preferencias de la audiencia y comentarios en tiempo real.
  • Difuminando los límites digitales: la sinergia de Sora con la realidad virtual y la realidad aumentada difumina las líneas entre los reinos físico y digital, presentando experiencias inmersivas novedosas y oportunidades de narración interactiva.

En esencia, la llegada de Sora presagia una era transformadora en la creación de contenido impulsada por la IA, que remodela industrias, narrativas y experiencias de usuario de manera profunda.

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Zhauhazyn es redactor publicitario y se especializa en sociología. Fascinada por la intrincada dinámica de los estudios de ciencia y tecnología, profundiza en el ámbito de la Web3 con una ferviente pasión por blockchain.

Más artículos
Zhauzyn Shaden
Zhauzyn Shaden

Zhauhazyn es redactor publicitario y se especializa en sociología. Fascinada por la intrincada dinámica de los estudios de ciencia y tecnología, profundiza en el ámbito de la Web3 con una ferviente pasión por blockchain.

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
El cambio de Donald Trump hacia las criptomonedas: de oponente a defensor y lo que significa para el mercado de criptomonedas de EE. UU.
Empresa Industrias Historias y comentarios Tecnología
El cambio de Donald Trump hacia las criptomonedas: de oponente a defensor y lo que significa para el mercado de criptomonedas de EE. UU.
10 de mayo de 2024
Layer3 lanzará el token L3 este verano, asignando el 51% del suministro total a la comunidad
Industrias Informe de noticias Tecnología
Layer3 lanzará el token L3 este verano, asignando el 51% del suministro total a la comunidad
10 de mayo de 2024
Advertencia final de Edward Snowden a los desarrolladores de Bitcoin: “Hagan de la privacidad una prioridad a nivel de protocolo o corren el riesgo de perderla
Industrias Seguridad Wiki Software Historias y comentarios Tecnología
Advertencia final de Edward Snowden a los desarrolladores de Bitcoin: “Hagan de la privacidad una prioridad a nivel de protocolo o corren el riesgo de perderla
10 de mayo de 2024
Mint Network Mint de capa 2 de Ethereum impulsada por el optimismo lanzará su red principal el 15 de mayo
Informe de noticias Tecnología
Mint Network Mint de capa 2 de Ethereum impulsada por el optimismo lanzará su red principal el 15 de mayo
10 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.