AI Wiki Kunst Uddannelse Software Teknologier

April 24, 2024

The Rise of Sora: How AI is Redefining af landskabet for skabelse af videoindhold

by Zhauhazyn Shaden

Udgivet: 24. april 2024 kl. 8 Opdateret: 06. april 24 kl. 2024

by Anastasiia O

Redigeret og faktatjekket: 24. april 2024 kl. 8

Kort sagt

Sora er en progressiv tekst-til-video AI-model, der lover at ændre spillet med videooprettelse fuldstændigt.

Adobe har for nylig afsløret planer om at integrere generative AI-værktøjer i sin Premiere Pro software. Dette træk, som inkluderer at give brugere adgang til værktøjer som f.eks OpenAI's Sora direkte i Premiere Pro, er rettet mod at berige softwaren med AI-drevne funktioner såsom scenemanipulation og fjernelse af distraktion.

Skønt OpenAI's Sora er i øjeblikket ikke tilgængelig for offentligheden, Adobe demonstrerede sin integration i Premiere Pro som en eksperimentel funktion uden at angive en specifik tidslinje for udgivelsen.

Vi er glade for at annoncere gennembrud #GenerativAI funktioner drevet af det nye #AdobeFirefly video model. Tag et smugkig på Object Addition, Object Removal og Generative Extend. Alle kommer snart til #PremierePro! 💥 https://t.co/Yg1NxffVNR pic.twitter.com/wa5ivFXAPG
—Adobe (@Adobe) April 15, 2024

Sora er en progressiv tekst-til-video AI-model, der fik opmærksomhed på grund af sit løfte om at ændre spillet med videooprettelse fuldstændigt. Et lovende værktøj med ekstrem effekt for alle, der har noget at gøre med videoproduktion, motion design og animation, denne teknologi rummer også afgørende udfordringer.

Lad os udforske alle facetter af den utrolige og længe ventede Sora.

Tekst til video?

Grundlæggende er Sora designet til at lave naturtro og visuelt fængslende videoer, der er genereret ud fra tekstprompter. Som en innovativ anvendelse af AI sigter Sora på at strømline videoproduktionsprocessen og tilbyde nye muligheder for narrative processer og visuel kommunikation.

Soras funktionalitet er forankret i dens evne til at fortolke og udføre tekstkommandoer for at skabe overbevisende videoindhold. Ved at udnytte avancerede deep learning-teknikker og sprogforståelse behandler Sora inputtekst og konstruerer tilsvarende visuelle scener med karakterer, indstillinger og bevægelse. Denne proces involverer et sofistikeret samspil mellem naturlig sprogbehandling og videosyntese, der producerer output, der er tæt på linje med de angivne tekstprompter.

I udviklingen af Sora, OpenAIs team understregede vigtigheden af at skabe en AI-model, der indkapsler en dyb forståelse af sprog og et robust greb om visuelle historiefortællingsprincipper. Ved at integrere state-of-the-art fremskridt inden for naturlig sprogforståelse og videosyntese, prioriterer Soras design den sammenhængende fusion af sprogligt udtryk og visuel repræsentation.

Hvordan er det overhovedet muligt?

Så Sora fungerer som en diffusionsmodel, der ligner andre generative AI'er, der arbejder med tekst-til-billede. Det betyder, at Sora starter hver frame med statisk støj og derefter transformerer billeder til afbildninger, der vil ligne den givne prompt og beskrivelse af, hvad der forventes. Dette er muligt takket være maskinlæring. Sora-videoer kan strække sig over op til 60 sekunder.

Sora tager højde for tidsmæssig konsistens og innoverer ved at overveje flere videorammer samtidigt, hvilket sikrer sammenhæng, når objekter bevæger sig inden for scenen.

Ved at inkorporere både diffusions- og transformermodeller følger Sora en hybrid tilgang, der ligner GPT's transformerarkitektur. Jack Qiao fremhæver de komplementære styrker ved disse modeller, hvor diffusion udmærker sig ved teksturgenerering, men mangler i global sammensætning, hvorimod transformere udmærker sig ved layoutbestemmelse på højt niveau. Kombinationen udnytter transformatorens evne til at organisere patches, mens diffusionsmodellen udfylder detaljer.

I Soras implementering er billeder opdelt i tredimensionelle patches for at imødekomme tidsmæssig vedholdenhed. Dette afspejler tokeniseringsprocessen i sprogmodeller, hvor patches repræsenterer elementer i et sæt billeder. Derudover anvendes et dimensionsreduktionstrin for at strømline beregningseffektivitet.

For at forbedre videogengivelsen anvender Sora en gentekstteknik svarende til DALL E 3, Hvori GPT omskriver brugermeddelelser med yderligere detaljer før videogenerering. Dette tjener som en form for automatisk prompt forfining, der sikrer trofast overholdelse af brugerens input.

Hvor god er Sora nu?

OpenAI anerkender flere begrænsninger i den nuværende iteration af Sora. Især mangler Sora en iboende forståelse af fysik, hvilket betyder, at den muligvis ikke konsekvent overholder fysiske principper i den virkelige verden.

Som et eksempel formår modellen ikke at forstå årsag-og-virkning-forhold, hvilket resulterer i potentielle uoverensstemmelser. Ligeledes kan den rumlige placering af objekter vise unaturlige skift.

Når det kommer til pålidelighed, er status for Sora fortsat usikker. Selvom OpenAI har præsenteret eksempler, der viser høj kvalitet, er det uklart, i hvilket omfang selektiv fremvisning har fundet sted. I tekst-til-billede-applikationer er det almindelig praksis at generere flere billeder og vælge det bedste. Det nøjagtige antal billeder produceret af OpenAI team til at vise videoerne i deres meddelelsesartikel er ikke offentliggjort. Denne mangel på gennemsigtighed kan potentielt hindre adoption, især hvis det er nødvendigt at generere hundredvis eller tusindvis af videoer for at opnå kun ét brugbart resultat. For at afhjælpe denne usikkerhed må vi vente på bredere tilgængelighed af værktøjet.

Hvor vil Sora være til nytte?

Soras muligheder strækker sig til videooprettelse fra bunden, forlængelse af eksisterende optagelser og problemfri udfyldning af manglende rammer i videoer.

På samme måde som tekst-til-billede-generative AI-værktøjer revolutionerede billedskabelse uden tekniske redigeringsfærdigheder, sigter Sora på at forenkle videoproduktion uden at have behov for billedredigeringsekspertise. Her er nogle primære applikationsscenarier:

Sora muliggør oprettelse af kortformede videoer skræddersyet til sociale medieplatforme såsom TikTok, Instagram Reels og YouTube Shorts. Det udmærker sig især ved at lave indhold, der kan være svært eller upraktisk at filme ved hjælp af traditionelle metoder.
Traditionelt kan dyre bestræbelser som at producere reklamer, salgsfremmende videoer og produktdemonstrationer forenkles betydeligt med tekst-til-video AI-værktøjer som Sora, der tilbyder omkostningseffektive løsninger.
Selvom AI-genererede videoer ikke er integreret i slutprodukter, tjener de som værdifulde værktøjer til hurtigt at illustrere koncepter. Filmskabere kan bruge AI til scenemockups før optagelse, mens designere kan visualisere produkter før fremstilling. For eksempel kunne et legetøjsfirma ansætte Sora til at skabe en AI-mockup af et nyt piratskibslegetøj for at evaluere dets gennemførlighed før masseproduktion.
Syntetiske data viser sig at være uvurderlige i situationer, hvor privatlivs- eller gennemførlighedsproblemer forhindrer brugen af rigtige data. Selvom det typisk anvendes på numeriske data såsom finansielle poster og personligt identificerbare oplysninger, kan syntetiske data med lignende egenskaber genereres for bredere tilgængelighed. Inden for video er syntetiske data nyttige til træning af computersynssystemer.

Udfordringer forbundet med Sora

Som et nyligt introduceret produkt er Soras risici endnu ikke fuldt belyst; dog forventes de at ligne dem, man støder på med tekst-til-billede-modeller.
Uden tilstrækkelige sikkerhedsforanstaltninger har Sora potentialet til at skabe stødende eller upassende indhold, såsom videoer, der indeholder vold, grafiske billeder, seksuelt eksplicit materiale, nedsættende fremstillinger af bestemte grupper og promovering eller glorificering af ulovlige aktiviteter. Hvad der udgør upassende indhold, kan variere meget afhængigt af brugeren (som et barn versus en voksen) og de omstændigheder, hvorunder videoerne er genereret (såsom en undervisningsvideo om fyrværkerifarer, der utilsigtet viser grafiske scener).
Eksempelvideoerne delt af OpenAI demonstrere, at en af Soras bemærkelsesværdige evner er dens evne til at skabe fantasifulde scenarier, der går ud over virkeligheden. Ikke desto mindre gør denne evne den også sårbar over for at generere "dybt falsk” videoer, hvor ægte individer eller situationer ændres for at formidle usandheder, uanset om det er utilsigtet (misinformation) eller bevidst (desinformation). Sådant indhold kan føre til væsentlige konsekvenser.
Resultaterne produceret af generative AI-modeller er i sagens natur forbundet med de data, de blev trænet på. Derfor kan kulturelle skævheder eller stereotyper, der er indlejret i træningsdataene, forekomme i de genererede videoer, hvilket muligvis fortsætter lignende problemer.

Hvad betyder det OpenAI Team gør for at forhindre de ovenfor nævnte risici?

I øjeblikket er Sora eksklusivt tilgængeligt for "rødt hold” forskere – eksperter, der har til opgave at identificere og afbøde potentielle problemer med modellen. Disse forskere bestræber sig på at generere indhold, der kan udvise de skitserede risici, hvilket tillader OpenAI at adressere og rette op på eventuelle bekymringer før Soras offentlige frigivelse.

Kan Sora efterlade mig jobløst?

Soras kapacitet til at producere videoindhold på topniveau baseret på tekstlige signaler har potentialet til at igangsætte bemærkelsesværdige transformationer inden for det kreative beskæftigelseslandskab. Konventionelle positioner inden for videografi, specialeffekter og animation risikerer at blive forældet i lyset af sådanne fremskridt. Mens nogle kreative kan dreje sig om ved at skærpe ekspertise i at overvåge AI-funktioner, etisk AI-udnyttelse og vejlede kreativ retning for at udnytte AI-kapaciteter, er gennemførligheden af denne overgang for alle fortsat usikker.

På den anden side, ved at reducere de tekniske og økonomiske forhindringer forbundet med videoproduktion, har Sora potentialet til at give en bredere vifte af individer mulighed for at lave indhold af høj kvalitet. Denne demokratisering kan fremme en stigning i varieret og opfindsom indholdsdistribution. Selvom det kan kræve, at etablerede medieenheder og indholdsskabere justerer og introducerer innovative tilgange, kan denne udvikling varsle positive resultater.

Uanset hvad, efter masseudgivelsen vil Sora utvivlsomt forårsage ændringer i video- og relaterede industrier, såvel som i personlig indholdsskabelse.

Langsigtede konsekvenser af OpenAI Sora

Efterhånden som Sora bliver forankret i professionelle arbejdsgange, udfolder dens varige virkning sig:

Frigør brugssager af høj værdi: Soras integration på tværs af industrier lover transformative applikationer, herunder:

Accelereret indholdsproduktion: Sora strømliner medieskabelse på tværs af VR-, AR-, spil- og traditionel underholdningssektorer, fremskynder produktionscyklusser og letter idéer.
Personlige oplevelser: Skræddersyet indhold kurateret af Sora for at matche individuelle præferencer dukker op, og omformer underholdning og pædagogiske paradigmer, så de passer til forskellige læringsstile og smag.
Realtidstilpasning: Dynamisk videoredigering aktiveret af Sora giver mulighed for on-the-fly ændringer af indhold, imødekomme publikums præferencer og feedback i realtid.
Sløring af digitale grænser: Soras synergi med VR og AR udvisker grænserne mellem fysiske og digitale områder og præsenterer nye fordybende oplevelser og interaktive historiefortællingsmuligheder.

I bund og grund indvarsler fremkomsten af Sora en transformativ æra inden for AI-drevet indholdsskabelse, omformning af industrier, fortællinger og brugeroplevelser på dybtgående måder.

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Zhauhazyn er tekstforfatter og hovedfag i sociologi. Fascineret af den indviklede dynamik i videnskabs- og teknologistudier, dykker hun dybt ind i verden af Web3 med en brændende passion for blockchain.

Flere artikler

Zhauhazyn Shaden