Desembre 25, 2023

Model d'IA de text a vídeo

Publicat: 25 de desembre de 2023 a les 6:43 Actualitzat: 25 de desembre de 2023 a les 6:43

Què és el model d'IA de text a vídeo?

Les indicacions en llenguatge natural són l'entrada que utilitzen els models de text a vídeo per crear vídeos. Aquests models comprenen el context i la semàntica del text d'entrada i després produeixen una seqüència de vídeo corresponent utilitzant màquina d'aprenentatge, aprenentatge profund o enfocaments de xarxes neuronals recurrents. El text a vídeo és una àrea de desenvolupament ràpid que requereix enormes quantitats de dades i poder de processament per entrenar. Es poden utilitzar per ajudar amb el procés de realització de pel·lícules o per produir vídeos d'entreteniment o promocionals.

connex: Les 50 millors indicacions d'IA de text a vídeo: animació d'imatge fàcil

Comprensió del model d'IA de text a vídeo

De manera semblant al problema del text a imatge, la producció de text a vídeo només s'ha estudiat durant uns anys en aquest moment. Estudis anteriors van generar majoritàriament fotogrames amb subtítols de manera auto-regressiva mitjançant tècniques basades en GAN i VAE. Aquests estudis es restringeixen a moviments aïllats i únics de baixa resolució, d'abast curt i únics, tot i que van establir les bases per a un nou problema de visió per ordinador.

La següent onada d'investigació de generació de text a vídeo va utilitzar estructures de transformadors, dibuixades per l'èxit de models de transformadors preentrenats a gran escala en text (GPT-3) i imatge (DALL-E). Si bé obres com TATS presenten enfocaments híbrids que inclouen VQGAN per a la creació d'imatges amb un mòdul de transformador sensible al temps per a la generació de fotogrames seqüencials, Phenaki, Make-A-Video, NUWA, VideoGPT, i CogVideo proposen marcs basats en transformadors. Phenaki, una de les obres d'aquesta segona onada, és especialment intrigant perquè permet crear pel·lícules arbitràriament llargues a partir d'una sèrie d'instruccions o una narració. De la mateixa manera, NUWA-Infinity permet la creació dedefipel·lícules de nició proposant una tècnica de generació autoregressiva sobre autoregressiva per a una síntesi infinita d'imatges i vídeos a partir d'entrada de text. Tanmateix, els models NUWA i Phenaki no són accessibles al públic en general.

La majoria dels models de text a vídeo de la tercera i actual onada inclouen topologies basades en difusió. Els models de difusió han mostrat resultats impressionants en la generació d'imatges riques, hiperrealistes i variades. Això ha despertat l'interès per aplicar models de difusió a altres dominis, com ara àudio, 3D i, més recentment, vídeo. Els models de difusió de vídeo (VDM), que amplien els models de difusió al domini del vídeo, i MagicVideo, que suggereix un marc per produir clips de vídeo en un espai latent de baixa dimensió i reclama importants beneficis d'eficiència respecte al VDM, són els precursors d'aquesta generació de models. . Un altre exemple destacable és Tune-a-Video, que permet utilitzar un parell de text-vídeo per ajustar un model de text a imatge prèviament entrenat i permet canviar el contingut del vídeo mentre es manté el moviment.

connex: Més de 10 millors generadors d'IA de text a vídeo: potents i gratuïts

Futur del model d'IA de text a vídeo

El text a vídeo de Hollywood i intel·ligència artificial (AI) el futur està ple d'oportunitats i dificultats. Podem preveure vídeos generats per IA molt més complexos i realistes a mesura que aquests sistemes d'IA generativa es desenvolupen i esdevinguin més hàbils per produir vídeos a partir d'indicacions de text. Les possibilitats que ofereixen programes com el Gen2 de Runway, el NeRF de NVIDIA i el Transframer de Google són només la punta de l'iceberg. Expressions emocionals més complexes, edició de vídeo en temps real i fins i tot la capacitat de crear llargmetratges de llarga durada a partir d'un missatge de text són possibles desenvolupaments futurs. Per exemple, la visualització de storyboard durant la preproducció es pot aconseguir amb la tecnologia de text a vídeo, donant accés als directors a una versió inacabada d'una escena abans de rodar-la. Això podria comportar un estalvi de recursos i temps, millorant l'eficiència del procés de realització de pel·lícules. Aquestes eines també es poden utilitzar per produir de manera ràpida i assequible material de vídeo d'alta qualitat per motius de màrqueting i promocions. També es poden utilitzar per crear vídeos captivadors.

Últimes notícies sobre el model d'IA de text a vídeo

Zeroscope, una tecnologia de text a vídeo gratuïta i de codi obert, és un competidor del Gen-2 de Runway ML. Pretén transformar les paraules escrites en imatges dinàmiques, oferint una resolució més alta i una relació d'aspecte de 16:9 més propera. Disponible en dues versions, Zeroscope_v2 567w i Zeroscope_v2 XL, requereix 7.9 GB de VRam i introdueix soroll compensat per millorar la distribució de dades. Zeroscope és una alternativa viable de codi obert al Gen-2 de Runway, que ofereix una gamma més diversa de vídeos realistes.
VideoDirectorGPT és un enfocament innovador per a la generació de text a vídeo, que combina grans models de llenguatge (LLM) amb la programació de vídeo per crear vídeos precisos i coherents en diverses escenes. Utilitza LLM com a mestre de narració, elaborant descripcions de text a nivell d'escena, llistes d'objectes i dissenys fotograma a fotograma. Layout2Vid, un mòdul de generació de vídeo, proporciona control espacial sobre els dissenys d'objectes. Els models Gen-2 de Yandex Masterpiece i Runway ofereixen accessibilitat i simplicitat, alhora que milloren la creació i l'intercanvi de contingut a les plataformes de xarxes socials.
Yandex ha introduït una nova funció anomenada Masterpiece, que permet als usuaris crear vídeos curts de fins a 4 segons amb una velocitat de fotogrames de 24 fotogrames per segon. La tecnologia utilitza el mètode de difusió en cascada per crear fotogrames de vídeo posteriors, cosa que permet als usuaris generar una àmplia varietat de contingut. La plataforma Masterpiece complementa les capacitats existents, com ara la creació d'imatges i publicacions de text. La xarxa neuronal genera vídeos mitjançant descripcions basades en text, selecció de fotogrames i generació automatitzada. La funció ha guanyat popularitat i actualment està disponible exclusivament per als usuaris actius.

Imatge a vídeo, tot des del text. AI Art millora cada minut. 🤯

El @midjourney indicació fotogràfica: "On les onades toquen la sorra, un drone disparat des de dalt, hiperrealista i brillant, un dia assolellat al sud de Califòrnia -a 16:9 - estilitza 750 -v 6"

Entra el vídeo @runwayml: ... pic.twitter.com/fK8KC0PVqM
— Adam Greenbaum (@Greenbaumly) Desembre 23, 2023

PixVerse: coherència de caràcters al vídeo (de text a vídeo)

La coherència dels personatges sempre ha estat un repte en els vídeos i les imatges generats amb IA, però PixVerse ofereix una solució per a la conversió de text a vídeo.

Nota: està dissenyat per a personatges d'estil anime i inclou 11 predefiNeda dona... pic.twitter.com/SSbua2g4HQ
— AshutoshShrivastava (@ai_for_success) Desembre 22, 2023

#Tripo3D #TripoAI Provant aquesta versió beta de Generative AI, missatge de text en 3D. pic.twitter.com/dFTIfeBZQR
— BLENDER SUSHI 🫶 X – Blenderian 24/7 (@jimmygunawanapp) Desembre 18, 2023

« Tornar a l'índex del glossari

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Viktoriia és escriptora sobre diversos temes tecnològics, com ara Web3.0, IA i criptomonedes. La seva àmplia experiència li permet escriure articles per a un públic més ampli.

més articles

Viktoria Palchik

Viktoriia és escriptora sobre diversos temes tecnològics, com ara Web3.0, IA i criptomonedes. La seva àmplia experiència li permet escriure articles per a un públic més ampli.