AI Wiki Konst Utbildning Mjukvara Teknologi

24 april 2024

The Rise of Sora: How AI is Redefining av landskapet för skapande av videoinnehåll

by Zhauhazyn Shaden

Publicerad: 24 april 2024 kl. 8 Uppdaterad: 06 april 24 kl. 2024

by Anastasiia O

Redigerad och faktagranskad: 24 april 2024 kl. 8:06

I korthet

Sora är en progressiv text-till-video AI-modell som lovar att förändra spelet för att skapa video helt.

Adobe har nyligen avslöjat planer på att integrera generativa AI-verktyg i sin Premiere Pro programvara. Detta drag, som inkluderar att ge användare tillgång till verktyg som OpenAI's Sora direkt inom Premiere Pro, syftar till att berika programvaran med AI-drivna funktioner som scenmanipulation och distraktionsborttagning.

Även OpenAI's Sora är för närvarande inte tillgänglig för allmänheten, Adobe demonstrerade dess integration i Premiere Pro som en experimentell funktion utan att ange en specifik tidslinje för lanseringen.

Vi är glada över att meddela genombrottet #GenerativAI funktioner som drivs av den nya #AdobeFirefly videomodell. Ta en tjuvtitt på Object Addition, Object Removal och Generative Extend. Alla kommer snart till #PremierePro! 💥 https://t.co/Yg1NxffVNR pic.twitter.com/wa5ivFXAPG
—Adobe (@Adobe) 15 april 2024

Sora är en progressiv text-till-video AI-modell som fick uppmärksamhet på grund av sitt löfte att förändra spelet för att skapa video helt. Ett lovande verktyg med extrem effekt för alla som har något att göra med videoproduktion, motion design och animation, den här tekniken har också avgörande utmaningar.

Låt oss utforska alla aspekter av den otroliga och mycket efterlängtade Sora.

Text till video?

I grund och botten är Sora designad för att göra verklighetstrogna och visuellt fängslande videor genererade från textuppmaningar. Som en innovativ tillämpning av AI strävar Sora efter att effektivisera videoproduktionsprocessen och erbjuda nya möjligheter för narrativa processer och visuell kommunikation.

Soras funktionalitet är rotad i dess förmåga att tolka och utföra textkommandon för att skapa övertygande videoinnehåll. Med hjälp av avancerad djupinlärningsteknik och språkförståelse bearbetar Sora inmatad text och konstruerar motsvarande visuella scener med karaktärer, inställningar och rörelser. Denna process involverar ett sofistikerat samspel mellan bearbetning av naturligt språk och videosyntes, vilket producerar utdata som ligger nära de angivna textuppmaningarna.

Vid utvecklingen av Sora, OpenAIs team betonade vikten av att skapa en AI-modell som kapslar in en djup förståelse av språk och ett robust grepp om visuella berättarprinciper. Genom att integrera toppmoderna framsteg inom förståelse av naturligt språk och videosyntes, prioriterar Soras design den sammanhållna fusionen av språkliga uttryck och visuell representation.

Hur är det ens möjligt?

Så, Sora fungerar som en diffusionsmodell som liknar andra generativa AI:er som arbetar med text-till-bild. Det betyder att Sora startar varje bildruta med statiskt brus och sedan omvandlar bilder till skildringar som kommer att likna den givna uppmaningen och beskrivningen av vad som förväntas. Detta är möjligt tack vare maskininlärning. Sora-videor kan sträcka sig över upp till 60 sekunder.

Sora tar upp tidsmässig konsistens och förnyar sig genom att överväga flera videorutor samtidigt, vilket säkerställer koherens när objekt rör sig inom scenen.

Sora har både diffusions- och transformatormodeller och följer en hybridmetod som liknar den GPTs transformatorarkitektur. Jack Qiao lyfter fram de kompletterande styrkorna hos dessa modeller, med diffusion som utmärker sig vid texturgenerering men saknar global sammansättning, medan transformatorer utmärker sig vid layoutbestämning på hög nivå. Kombinationen utnyttjar transformatorns förmåga att organisera patchar medan diffusionsmodellen fyller i detaljer.

I Soras implementering är bilder uppdelade i tredimensionella fläckar för att tillgodose temporal uthållighet. Detta speglar tokeniseringsprocessen i språkmodeller, där lappar representerar delar av en uppsättning bilder. Dessutom tillämpas ett dimensionsreduktionssteg för att effektivisera beräkningseffektiviteten.

För att förbättra videofideliteten använder Sora en repetitionsteknik liknande DALL E 3, Vari GPT skriver om användarmeddelanden med ytterligare detaljer innan videogenerering. Detta fungerar som en form av automatisk snabbförfining, vilket säkerställer att användarens inmatningar följs.

Hur bra är Sora nu?

OpenAI erkänner flera begränsningar i den nuvarande iterationen av Sora. Noterbart saknar Sora ett inneboende grepp om fysik, vilket betyder att den kanske inte konsekvent följer verkliga fysiska principer.

Som ett exempel misslyckas modellen med att förstå orsak-och-verkan-samband, vilket resulterar i potentiella inkonsekvenser. På samma sätt kan den rumsliga positioneringen av objekt uppvisa onaturliga förskjutningar.

När det gäller tillförlitlighet är statusen för Sora fortfarande osäker. Fastän OpenAI har presenterat exempel som visar hög kvalitet är det oklart i vilken utsträckning selektiv utställning har förekommit. I text-till-bild-applikationer är det vanligt att generera flera bilder och välja den bästa. Det exakta antalet bilder som produceras av OpenAI team för att visa upp videorna i deras tillkännagivande artikel är inte avslöjat. Denna brist på transparens kan potentiellt hindra antagandet, särskilt om generering av hundratals eller tusentals videor krävs för att bara få ett användbart resultat. För att lindra denna osäkerhet måste vi vänta på en bredare tillgänglighet för verktyget.

Var kommer Sora att vara till nytta?

Soras möjligheter sträcker sig till att skapa video från grunden, förlängning av befintliga filmer och sömlös fyllning av saknade ramar i videor.

I likhet med hur text-till-bild-generativa AI-verktyg revolutionerade bildskapande utan tekniska redigeringsfärdigheter, strävar Sora efter att förenkla videoproduktion utan att behöva expertis inom bildredigering. Här är några primära tillämpningsscenarier:

Sora möjliggör skapandet av kortformade videor skräddarsydda för sociala medieplattformar som TikTok, Instagram Reels och YouTube Shorts. Det utmärker sig särskilt när det gäller att skapa innehåll som kan vara svårt eller opraktiskt att filma med traditionella metoder.
Traditionellt kan dyra ansträngningar som att producera reklam, reklamfilmer och produktdemonstrationer avsevärt förenklas med text-till-video AI-verktyg som Sora, som erbjuder kostnadseffektiva lösningar.
Även om AI-genererade videor inte integreras i slutprodukterna, fungerar de som värdefulla verktyg för att snabbt illustrera koncept. Filmskapare kan använda AI för scenmodeller före inspelning, medan designers kan visualisera produkter innan de tillverkas. Till exempel kan ett leksaksföretag anställa Sora för att skapa en AI-mockup av en ny piratskeppsleksak för att utvärdera dess genomförbarhet innan massproduktion.
Syntetisk data visar sig vara ovärderlig i situationer där integritets- eller genomförbarhetsproblem hindrar användningen av riktig data. Även om det vanligtvis tillämpas på numeriska data som finansiella poster och personligt identifierbar information, kan syntetiska data med liknande egenskaper genereras för bredare tillgänglighet. Inom videosfären är syntetisk data användbar för att träna datorseendesystem.

Utmaningar förknippade med Sora

Som en nyintroducerad produkt är Soras risker ännu inte helt klarlagda; de förväntas dock likna de man möter med text-till-bild-modeller.
Utan tillräckliga skyddsåtgärder har Sora potential att skapa stötande eller olämpligt innehåll, såsom videor som innehåller våld, grafiska bilder, sexuellt explicit material, nedsättande representationer av särskilda grupper och främjande eller glorifiering av illegala aktiviteter. Vad som utgör olämpligt innehåll kan skilja sig mycket beroende på användaren (som ett barn kontra en vuxen) och de omständigheter under vilka videorna genereras (som en utbildningsvideo om fyrverkerier som oavsiktligt visar grafiska scener).
Exempelvideorna som delas av OpenAI visa att en av Soras anmärkningsvärda förmågor är dess skicklighet att skapa fantasifulla scenarier som går bortom verkligheten. Icke desto mindre gör denna förmåga den också sårbar för att generera "djupt fejk” videor, där äkta individer eller situationer ändras för att förmedla falskheter, oavsett om det är oavsiktligt (desinformation) eller avsiktligt (desinformation). Sådant innehåll kan leda till betydande konsekvenser.
Resultaten som produceras av generativa AI-modeller är naturligt kopplade till den data de tränades på. Därför kan kulturella fördomar eller stereotyper inbäddade i träningsdata dyka upp i de genererade videorna, vilket möjligen vidmakthåller liknande problem.

Vad gör OpenAI Team gör för att förebygga riskerna som nämns ovan?

För närvarande är Sora exklusivt tillgänglig för "rött lag” forskare – experter med uppgift att identifiera och mildra potentiella problem med modellen. Dessa forskare strävar efter att skapa innehåll som kan uppvisa de risker som beskrivs, vilket tillåter OpenAI för att ta itu med och åtgärda eventuella problem innan Soras offentliggörande.

Kan Sora lämna mig utan jobb?

Soras kapacitet att producera videoinnehåll på toppnivå baserat på textuella signaler har potentialen att inleda anmärkningsvärda förändringar inom det kreativa sysselsättningslandskapet. Konventionella positioner inom videografi, specialeffekter och animering riskerar att bli föråldrade inför sådana framsteg. Även om vissa kreativa material kan svänga genom att finslipa expertis i att övervaka AI-funktioner, etiskt AI-användning och vägleda kreativ riktning för att utnyttja AI-kapaciteten, är genomförbarheten av denna övergång för alla fortfarande osäker.

Å andra sidan, genom att minska de tekniska och ekonomiska hindren förknippade med videoproduktion, har Sora potential att ge ett bredare spektrum av individer möjlighet att skapa högkvalitativt innehåll. Denna demokratisering kan främja ett uppsving i varierad och uppfinningsrik innehållsdistribution. Även om det kan kräva att etablerade medieenheter och innehållsskapare justerar och introducerar innovativa tillvägagångssätt, kan denna utveckling förebåda positiva resultat.

Hur som helst, efter masssläppet kommer Sora utan tvekan att orsaka förändringar i video- och relaterade industrier, såväl som i skapande av personligt innehåll.

Långsiktiga konsekvenser av OpenAI sora

När Sora blir förankrad i professionella arbetsflöden utspelar sig dess bestående effekt:

Låsa upp värdefulla användningsfall: Soras integration mellan branscher lovar transformativa applikationer, inklusive:

Accelererad innehållsproduktion: Sora effektiviserar medieskapandet över VR, AR, spel och traditionell underhållning, påskyndar produktionscykler och underlättar idéer.
Personliga upplevelser: Skräddarsytt innehåll kurerat av Sora för att matcha individuella preferenser dyker upp, som omformar underhållning och utbildningsparadigm för att passa olika inlärningsstilar och smaker.
Realtidsanpassning: Dynamisk videoredigering som möjliggörs av Sora möjliggör direkta ändringar av innehållet, tillgodose publikens preferenser och feedback i realtid.
Sudda ut digitala gränser: Soras synergi med VR och AR suddar ut gränserna mellan fysiska och digitala sfärer, och presenterar nya uppslukande upplevelser och interaktiva berättarmöjligheter.

I grund och botten förebådar tillkomsten av Sora en transformativ era inom AI-drivet innehållsskapande, omformning av industrier, berättelser och användarupplevelser på djupgående sätt.

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Zhauhazyn är copywriter och huvudämne i sociologi. Fascinerad av den invecklade dynamiken i vetenskaps- och teknikstudier, gräver hon djupt in i riket av Web3 med en brinnande passion för blockchain.

fler artiklar

Zhauhazyn Shaden