AI Wiki Umetnost Izobraževanje Software Tehnologija

April 24, 2024

Vzpon Sore: kako je AI Redefiustvarjanje pokrajine video vsebin

by Zhauhazyn Shaden

Objavljeno: 24. april 2024 ob 8 Posodobljeno: 06. april 24 ob 2024

by Anastazija O

Urejeno in preverjeno: 24. april 2024 ob 8

Na kratko

Sora je progresivni model umetne inteligence za pretvorbo besedila v video, ki obljublja, da bo popolnoma spremenil igro ustvarjanja videa.

Adobe je nedavno razkril načrte za integracijo generativnih orodij AI v svoje Premiere Pro programsko opremo. Ta poteza, ki vključuje omogočanje uporabnikom dostopa do orodij, kot je OpenAISora uporabnika neposredno znotraj Premiere Pro je namenjena obogatitvi programske opreme z zmogljivostmi, ki jih poganja AI, kot sta manipulacija scene in odstranjevanje motenj.

Čeprav OpenAISora uporabnika trenutno ni dostopna javnosti, Adobe je svojo integracijo v Premiere Pro predstavil kot eksperimentalno funkcijo, ne da bi zagotovil določen časovni načrt za njeno izdajo.

Z veseljem oznanjamo preboj #GenerativeAI funkcije, ki jih poganja nov #AdobeFirefly video model. Na hitro pokukajte v dodajanje predmetov, odstranjevanje predmetov in generativno razširitev. Vse kmalu na #PremierePro! 💥 https://t.co/Yg1NxffVNR pic.twitter.com/wa5ivFXAPG
—Adobe (@Adobe) April 15, 2024

Sora je progresivni model umetne inteligence za pretvorbo besedila v video, ki je pritegnil pozornost zaradi svoje obljube, da bo popolnoma spremenil igro ustvarjanja videa. Obetavno orodje izjemnega učinka za vse, ki imajo kaj opraviti z video produkcijo, oblikovanjem gibanja in animacijo, ta tehnologija prinaša tudi ključne izzive.

Raziščimo vse vidike neverjetne in težko pričakovane Sore.

Besedilo v video?

Sora je v bistvu zasnovana za ustvarjanje realističnih in vizualno privlačnih videoposnetkov, ustvarjenih iz besedilnih pozivov. Kot inovativna aplikacija umetne inteligence želi Sora poenostaviti proces video produkcije in ponuditi nove možnosti za narativne procese in vizualno komunikacijo.

Funkcionalnost Sore je zakoreninjena v njeni zmožnosti interpretacije in izvajanja besedilnih ukazov za ustvarjanje privlačne video vsebine. S pomočjo naprednih tehnik globokega učenja in razumevanja jezika Sora obdeluje vneseno besedilo in sestavlja ustrezne vizualne prizore z liki, nastavitvami in gibanjem. Ta proces vključuje prefinjeno medsebojno delovanje med obdelavo naravnega jezika in video sintezo, ki proizvaja izhod, ki je tesno usklajen s podanimi besedilnimi pozivi.

Pri razvoju Sore, OpenAIEkipa je poudarila pomen ustvarjanja modela umetne inteligence, ki vključuje globoko razumevanje jezika in zanesljivo razumevanje principov vizualnega pripovedovanja zgodb. Z integracijo najsodobnejših dosežkov v razumevanju naravnega jezika in video sintezi Sorin dizajn daje prednost kohezivni fuziji jezikovnega izražanja in vizualne predstavitve.

Kako je to sploh mogoče?

Torej Sora deluje kot difuzijski model, podoben drugim generativnim AI, ki delujejo s pretvorbo besedila v sliko. To pomeni, da Sora začne vsak okvir s statičnim šumom, nato pa slike pretvori v upodobitve, ki bodo podobne danemu pozivu in opisu pričakovanega. To je mogoče zaradi strojnega učenja. Videoposnetki Sora lahko trajajo do 60 sekund.

Pri obravnavanju časovne konsistentnosti Sora uvaja inovacije tako, da hkrati upošteva več video okvirjev, kar zagotavlja skladnost, ko se predmeti premikajo znotraj scene.

Sora vključuje tako difuzijske kot transformatorske modele in sledi hibridnemu pristopu, podobnemu GPTtransformatorska arhitektura. Jack Qiao poudarja komplementarne prednosti teh modelov, pri čemer difuzija blesti pri ustvarjanju teksture, vendar nima globalne kompozicije, medtem ko se transformatorji odlikujejo pri določanju postavitve na visoki ravni. Kombinacija izkorišča zmožnost transformatorja, da organizira zaplate, medtem ko model difuzije zapolni podrobnosti.

V Sorini izvedbi so slike razdeljene na tridimenzionalne zaplate, da se prilagodijo časovni obstojnosti. To odraža proces tokenizacije v jezikovnih modelih, kjer popravki predstavljajo elemente niza slik. Poleg tega je za racionalizacijo računske učinkovitosti uporabljen korak zmanjšanja dimenzij.

Za izboljšanje zvestobe videa Sora uporablja podobno tehniko ponovnega posnetka DALL E 3, Kjer GPT prepiše uporabniške pozive z dodatnimi podrobnostmi pred ustvarjanjem videa. To služi kot oblika samodejnega hitrega izboljšanja, ki zagotavlja natančno upoštevanje uporabnikovega vnosa.

Kako dobra je Sora zdaj?

OpenAI priznava več omejitev v trenutni ponovitvi Sore. Predvsem Sora nima prirojenega razumevanja fizike, kar pomeni, da se morda ne drži dosledno fizikalnih načel resničnega sveta.

Na primer, model ne zajame vzročno-posledičnih odnosov, kar povzroči morebitne nedoslednosti. Prav tako lahko prostorsko pozicioniranje predmetov kaže nenaravne premike.

Kar zadeva zanesljivost, status Sore ostaja negotov. čeprav OpenAI je predstavil primere, ki dokazujejo visoko kakovost, ni jasno, v kolikšni meri je prišlo do selektivnega predstavljanja. V aplikacijah za pretvorbo besedila v sliko je ustvarjanje več slik in izbira najboljše običajna praksa. Točno število slik, ki jih je ustvaril OpenAI ekipa za predstavitev videoposnetkov v svojem napovednem članku ni razkrita. To pomanjkanje preglednosti bi lahko oviralo sprejetje, zlasti če je za pridobitev samo enega uporabnega rezultata potrebno ustvariti na stotine ali tisoče videoposnetkov. Za ublažitev te negotovosti je treba počakati na širšo dostopnost orodja.

Kje bo Sora uporabna?

Zmožnosti Sore se razširijo na ustvarjanje videoposnetkov iz nič, podaljšanje obstoječih posnetkov in brezhibno zapolnjevanje manjkajočih okvirjev v videoposnetkih.

Podobno kot so generativna orodja umetne inteligence za pretvorbo besedila v sliko revolucionirala ustvarjanje slik brez tehničnih veščin urejanja, želi Sora poenostaviti video produkcijo brez potrebe po strokovnem znanju za urejanje slik. Tukaj je nekaj primarnih scenarijev uporabe:

Sora omogoča ustvarjanje kratkih videoposnetkov, prilagojenih platformam družbenih medijev, kot so TikTok, Instagram Reels in YouTube Shorts. Še posebej se odlikuje pri ustvarjanju vsebin, ki jih je morda težko ali nepraktično posneti s tradicionalnimi metodami.
Tradicionalno je mogoče draga prizadevanja, kot je izdelava oglasov, promocijskih videoposnetkov in predstavitve izdelkov, znatno poenostaviti z orodji AI za pretvorbo besedila v video, kot je Sora, ki ponujajo stroškovno učinkovite rešitve.
Tudi če videoposnetki, ustvarjeni z umetno inteligenco, niso integrirani v končne izdelke, služijo kot dragoceno orodje za hitro ilustriranje konceptov. Filmski ustvarjalci lahko uporabijo AI za makete prizorov pred snemanjem, medtem ko lahko oblikovalci vizualizirajo izdelke pred izdelavo. Na primer, podjetje, ki se ukvarja z igračami, bi lahko zaposlilo Soro, da ustvari maketo nove igrače piratske ladje z umetno inteligenco, da oceni njeno izvedljivost pred masovno proizvodnjo.
Sintetični podatki se izkažejo za neprecenljive v situacijah, ko pomisleki glede zasebnosti ali izvedljivosti preprečujejo uporabo resničnih podatkov. Medtem ko se običajno uporabljajo za numerične podatke, kot so finančni zapisi in osebno določljivi podatki, je mogoče ustvariti sintetične podatke s podobnimi lastnostmi za širšo dostopnost. Na področju videa so sintetični podatki uporabni za usposabljanje sistemov računalniškega vida.

Izzivi, povezani s Soro

Tveganja Sore kot na novo predstavljenega izdelka še niso povsem pojasnjena; vendar se pričakuje, da bodo podobni tistim, ki se pojavljajo pri modelih besedila v sliko.
Brez zadostnih zaščitnih ukrepov lahko Sora ustvari sporno ali neprimerno vsebino, kot so videoposnetki, ki vsebujejo nasilje, nazorne podobe, spolno eksplicitno gradivo, slabšalno predstavljanje določenih skupin ter spodbujanje ali poveličevanje nezakonitih dejavnosti. Kaj je neprimerna vsebina, se lahko močno razlikuje glede na uporabnika (na primer otrok v primerjavi z odraslim) in okoliščine, v katerih so videoposnetki ustvarjeni (na primer izobraževalni videoposnetek o nevarnostih ognjemetov, ki nenamerno prikazuje nazorne prizore).
Primer videoposnetkov, ki jih je delil OpenAI pokažite, da je ena od Sorinih pomembnih sposobnosti njena spretnost pri ustvarjanju domiselnih scenarijev, ki presegajo realnost. Kljub temu je zaradi te zmožnosti tudi ranljiv za ustvarjanje "globoko ponaredek” videoposnetkov, kjer so resnični posamezniki ali situacije spremenjeni, da posredujejo laži, bodisi nenamerno (dezinformacije) bodisi namerno (dezinformacije). Takšna vsebina lahko povzroči znatne posledice.
Rezultati, ki jih ustvarijo generativni modeli umetne inteligence, so sami po sebi povezani s podatki, na podlagi katerih so bili usposobljeni. Zato se lahko v ustvarjenih videoposnetkih pojavijo kulturne pristranskosti ali stereotipi, vdelani v podatke o usposabljanju, kar lahko ohranja podobne težave.

Kaj naredi OpenAI Kaj naredi ekipa za preprečevanje zgoraj omenjenih tveganj?

Trenutno je Sora dostopna izključno »rdeča ekipa” raziskovalci—strokovnjaki, zadolženi za prepoznavanje in ublažitev morebitnih težav z modelom. Ti raziskovalci si prizadevajo ustvariti vsebino, ki bi lahko pokazala opisana tveganja, kar omogoča OpenAI obravnavati in odpraviti vse pomisleke pred javno objavo Sore.

Me lahko Sora pusti brez službe?

Zmogljivost družbe Sora, da proizvede vrhunske video vsebine na podlagi besedilnih namigov, lahko povzroči opazne preobrazbe v kreativnem zaposlovanju. Običajni položaji v videografiji, posebnih učinkih in animaciji tvegajo zastarelost zaradi takšnega napredka. Medtem ko se nekateri ustvarjalci lahko obrnejo z izpopolnjevanjem strokovnega znanja pri nadzoru funkcij umetne inteligence, etični uporabi umetne inteligence in usmerjanju ustvarjalne usmeritve za izkoriščanje zmogljivosti umetne inteligence, ostaja izvedljivost tega prehoda za vse negotova.

Po drugi strani pa ima Sora z zmanjšanjem tehničnih in finančnih ovir, povezanih z video produkcijo, potencial za opolnomočenje širšega kroga posameznikov za ustvarjanje visokokakovostnih vsebin. Ta demokratizacija lahko spodbudi porast raznolike in domiselne distribucije vsebine. Čeprav bo morda potrebno, da se uveljavljeni medijski subjekti in ustvarjalci vsebin prilagodijo in uvedejo inovativne pristope, bi lahko ta razvoj prinesel pozitivne rezultate.

Kakor koli že, po množični objavi bo Sora nedvomno povzročila spremembe v video in sorodnih panogah ter ustvarjanju osebnih vsebin.

Dolgoročne posledice OpenAI Sora

Ko se Sora usidra v poklicne poteke dela, se njen trajni vpliv razkrije:

Odklepanje primerov uporabe z visoko vrednostjo: Sorina integracija med panogami obljublja transformativne aplikacije, vključno z:

Pospešena produkcija vsebine: Sora poenostavi ustvarjanje medijev v sektorjih VR, AR, iger in tradicionalne zabave, s čimer pospeši proizvodne cikle in olajša idejo.
Prilagojene izkušnje: Pojavijo se prilagojene vsebine, ki jih kurira Sora, da se ujemajo z individualnimi preferencami in preoblikujejo zabavne in izobraževalne paradigme, da ustrezajo različnim učnim slogom in okusom.
Prilagoditev v realnem času: dinamično urejanje videa, ki ga omogoča Sora, omogoča sprotne spremembe vsebine, ki ustrezajo željam občinstva in povratnim informacijam v realnem času.
Zabrisanje digitalnih meja: Sorina sinergija z VR in AR briše meje med fizičnimi in digitalnimi sferami ter predstavlja nove poglobljene izkušnje in priložnosti za interaktivno pripovedovanje zgodb.

V bistvu prihod Sore naznanja transformativno dobo v ustvarjanju vsebin, ki jih poganja umetna inteligenca, ki temeljito preoblikuje industrije, pripovedi in uporabniške izkušnje.

Tags:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Zhauhazyn je tekstopisec in sociolog. Očarana nad zapleteno dinamiko naravoslovnih in tehnoloških študij, se poglobi v kraljestvo Web3 z gorečo strastjo do blockchaina.

več člankov

Zhauhazyn Shaden

Zhauhazyn je tekstopisec in sociolog. Očarana nad zapleteno dinamiko naravoslovnih in tehnoloških študij, se poglobi v kraljestvo Web3 z gorečo strastjo do blockchaina.

Hot Stories