AI Wiki Menas Išsilavinimas programinė įranga Technologija
Balandis 24, 2024

Soros kilimas: kaip AI yra Redefivaizdo turinio kūrimo peizažas

Trumpai

„Sora“ yra progresyvus teksto į vaizdo įrašą AI modelis, kuris žada visiškai pakeisti vaizdo įrašų kūrimo žaidimą.

„Adobe“ neseniai atskleidė planus integruoti generatyvius AI įrankius "Premiere Pro" programinė įranga. Šis žingsnis apima naudotojų prieigos suteikimą prie tokių įrankių kaip OpenAI„Sora“ tiesiogiai „Premiere Pro“ skirta praturtinti programinę įrangą dirbtinio intelekto funkcijomis, tokiomis kaip scenos manipuliavimas ir blaškymosi pašalinimas.

nors OpenAI„Sora“ šiuo metu nėra prieinama visuomenei, „Adobe“ pademonstravo savo integraciją į „Premiere Pro“ kaip eksperimentinę funkciją, nepateikdama konkretaus jos išleidimo laiko.

„Sora“ yra progresyvus teksto į vaizdo įrašą AI modelis, kuris sulaukė dėmesio dėl pažado visiškai pakeisti vaizdo įrašų kūrimo žaidimą. Ši technologija yra daug žadanti ekstremalaus poveikio priemonė, skirta visiems, turintiems ką nors bendro su vaizdo įrašų gamyba, judesio dizainu ir animacija.

Išnagrinėkime visus neįtikėtinos ir labai lauktos Soros aspektus.

Tekstas į vaizdo įrašą?

Iš esmės „Sora“ sukurta siekiant sukurti tikroviškus ir vizualiai patrauklius vaizdo įrašus, sugeneruotus iš teksto raginimų. Kaip novatoriška AI programa, „Sora“ siekia supaprastinti vaizdo įrašų gamybos procesą ir pasiūlyti naujų naratyvinių procesų ir vaizdinės komunikacijos galimybių.

„Sora“ funkcionalumas pagrįstas gebėjimu interpretuoti ir vykdyti tekstines komandas, kad būtų sukurtas patrauklus vaizdo turinys. Naudodama pažangius giluminio mokymosi metodus ir kalbos supratimą, „Sora“ apdoroja įvestą tekstą ir sukuria atitinkamas vaizdines scenas su simboliais, nustatymais ir judesiais. Šis procesas apima sudėtingą natūralios kalbos apdorojimo ir vaizdo sintezės sąveiką, sukuriančią išvestį, kuri tiksliai atitinka pateiktus tekstinius raginimus.

Kuriant Sora, OpenAIKomanda pabrėžė, kaip svarbu sukurti AI modelį, kuris apimtų gilų kalbos supratimą ir tvirtą vizualinio pasakojimo principų suvokimą. Integruojant pažangiausius natūralios kalbos supratimo ir vaizdo sintezės pažangą, „Sora“ dizainas teikia pirmenybę darniam kalbinės raiškos ir vizualinio vaizdavimo susiliejimui.

Kaip tai netgi įmanoma?

Taigi, „Sora“ veikia kaip difuzijos modelis, panašus į kitas generuojamąsias AI, veikiančias su tekstu į vaizdą. Tai reiškia, kad „Sora“ kiekvieną kadrą pradeda nuo statinio triukšmo, tada vaizdus paverčia vaizdais, kurie bus panašūs į pateiktą raginimą ir aprašą, ko tikimasi. Tai įmanoma mašininio mokymosi dėka. „Sora“ vaizdo įrašai gali trukti iki 60 sekundžių.

Siekdama laiko nuoseklumo, „Sora“ diegia naujoves, vienu metu nagrinėdama kelis vaizdo kadrus, užtikrindama nuoseklumą, kai objektai juda scenoje.

Naudodama difuzijos ir transformatorių modelius, „Sora“ laikosi panašaus hibridinio požiūrio GPTtransformatoriaus architektūra. Jackas Qiao pabrėžia vienas kitą papildančias šių modelių stipriąsias puses, nes difuzija pasižymi puikia tekstūros generavimu, tačiau trūksta visuotinės sudėties, o transformatoriai pasižymi aukšto lygio išdėstymo nustatymu. Šis derinys išnaudoja transformatoriaus galimybę organizuoti pataisas, o difuzijos modelis užpildo detales.

„Sora“ diegime vaizdai yra suskirstyti į trimačius pleistrus, kad atitiktų laikinį išlikimą. Tai atspindi tokenizacijos procesą kalbos modeliuose, kur pleistrai žymi vaizdų rinkinio elementus. Be to, siekiant supaprastinti skaičiavimo efektyvumą, taikomas matmenų mažinimo žingsnis.

Siekdama pagerinti vaizdo įrašų tikslumą, Sora taiko panašų perrašymo techniką DALL E 3, Kuriame GPT perrašo vartotojo raginimus su papildoma informacija prieš generuojant vaizdo įrašą. Tai yra automatinio greito patikslinimo forma, užtikrinanti, kad naudotojas tiksliai laikytųsi įvesties.

Kokia gera dabar Sora?

OpenAI pripažįsta keletą dabartinės Sora iteracijos apribojimų. Pažymėtina, kad Sora neturi būdingo fizikos supratimo, o tai reiškia, kad ji gali nuosekliai nesilaikyti realaus pasaulio fizinių principų.

Pavyzdžiui, modelis nesugeba suvokti priežasties ir pasekmės santykių, todėl atsiranda galimų neatitikimų. Taip pat objektų erdvinė padėtis gali rodyti nenatūralius poslinkius.

Kalbant apie patikimumą, Sora statusas lieka neaiškus. Nors OpenAI pateikė pavyzdžių, įrodančių aukštą kokybę, neaišku, kiek pasireiškė selektyvus demonstravimas. Teksto į vaizdą programose įprasta generuoti kelis vaizdus ir pasirinkti geriausią. Tikslus vaizdų skaičius, kurį sukūrė OpenAI komanda, kuri savo skelbimo straipsnyje pademonstruos vaizdo įrašus, neatskleidžiama. Šis skaidrumo trūkumas gali trukdyti pritaikyti, ypač jei norint gauti tik vieną naudingą rezultatą reikia sukurti šimtus ar tūkstančius vaizdo įrašų. Kad sumažintume šį neapibrėžtumą, turime palaukti, kol bus pasiekiamas platesnis įrankis.

Kur bus naudinga Sora?

„Sora“ galimybės apima vaizdo įrašų kūrimą nuo nulio, esamos filmuotos medžiagos pailginimą ir sklandų trūkstamų vaizdo įrašų kadrų užpildymą.

Panašiai kaip teksto į vaizdą generuojantys dirbtinio intelekto įrankiai padarė revoliuciją kuriant vaizdus be techninio redagavimo įgūdžių, „Sora“ siekia supaprastinti vaizdo įrašų gamybą nereikalaujant vaizdo redagavimo patirties. Štai keletas pagrindinių taikymo scenarijų:

  • „Sora“ leidžia kurti trumpos formos vaizdo įrašus, pritaikytus socialinės žiniasklaidos platformoms, tokioms kaip „TikTok“, „Instagram Reels“ ir „YouTube Shorts“. Jis ypač puikiai sekasi kurti turinį, kurį gali būti sunku arba nepraktiška filmuoti naudojant tradicinius metodus.
  • Tradiciškai brangios pastangos, pvz., reklamų, reklaminių vaizdo įrašų ir produktų demonstravimas, gali būti žymiai supaprastintos naudojant teksto į vaizdo įrašus AI įrankius, tokius kaip „Sora“, kurie siūlo ekonomiškus sprendimus.
  • Net jei dirbtinio intelekto sukurti vaizdo įrašai nėra integruoti į galutinius produktus, jie yra vertingi įrankiai greitai iliustruoti koncepcijas. Filmų kūrėjai gali naudoti dirbtinį intelektą scenos maketams prieš filmuodami, o dizaineriai gali vizualizuoti gaminius prieš gamindami. Pavyzdžiui, žaislų įmonė galėtų įdarbinti „Sora“, kad sukurtų naujo piratų laivo žaislo AI maketą, kad įvertintų jo tinkamumą prieš masinę gamybą.
  • Sintetiniai duomenys yra neįkainojami tais atvejais, kai dėl privatumo ar pagrįstumo problemų negalima naudoti tikrų duomenų. Nors paprastai taikomi skaitiniams duomenims, pvz., finansiniams įrašams ir asmenį identifikuojančiai informacijai, sintetiniai duomenys su panašiomis savybėmis gali būti generuojami siekiant didesnio prieinamumo. Vaizdo įrašų srityje sintetiniai duomenys yra naudingi treniruojant kompiuterinės regos sistemas.

Su Sora susiję iššūkiai

  • Kaip naujai pristatyto produkto, Sora rizika dar nėra iki galo išaiškinta; tačiau tikimasi, kad jie bus panašūs į tuos, kurie susiduria su teksto į vaizdą modeliais.
  • Neturėdama pakankamų apsaugos priemonių, „Sora“ gali sukurti nepriimtiną ar netinkamą turinį, pvz., vaizdo įrašus, kuriuose yra smurto, atvirų vaizdų, seksualinio pobūdžio medžiagos, menkinančių tam tikrų grupių vaizdų ir nelegalios veiklos propagavimą ar šlovinimą. Kas yra netinkamas turinys, gali labai skirtis, atsižvelgiant į naudotoją (pvz., vaiko ir suaugusiojo) ir vaizdo įrašų generavimo aplinkybes (pvz., mokomąjį vaizdo įrašą apie fejerverkų pavojų, kuriame netyčia rodomos atviros scenos).
  • Vaizdo įrašų pavyzdžiai, kuriais bendrino OpenAI parodyti, kad vienas iš žymių Soros sugebėjimų yra jos įgūdžiai kurti vaizduotės scenarijus, kurie pranoksta tikrovę. Nepaisant to, ši galimybė taip pat daro jį pažeidžiamą generuojant „giliai suklastotas“ vaizdo įrašai, kuriuose pakeičiami tikri asmenys ar situacijos, kad būtų perteikta melaginga informacija, tiek netyčia (dezinformacija), tiek tyčia (dezinformacija). Toks turinys gali sukelti didelių pasekmių.
  • Generatyvinių AI modelių rezultatai yra neatsiejamai susiję su duomenimis, kuriais jie buvo mokomi. Todėl sugeneruotuose vaizdo įrašuose gali atsirasti kultūrinių šališkumo ar stereotipų, įterptų į mokymo duomenis, o tai gali tęsti panašias problemas.

Ką daro OpenAI Komanda daro, kad išvengtų aukščiau paminėtų pavojų?

Šiuo metu „Sora“ yra išskirtinai prieinama „raudona komanda“ tyrėjai – ekspertai, kuriems pavesta nustatyti ir sušvelninti galimas modelio problemas. Šie tyrėjai stengiasi sukurti turinį, kuriame gali kilti nurodyta rizika, leidžianti OpenAI išspręsti ir ištaisyti visus susirūpinimą keliančius klausimus prieš viešai išleidžiant Sorą.

Ar Sora gali palikti mane be darbo?

„Sora“ gebėjimas kurti aukščiausio lygio vaizdo įrašų turinį, pagrįstą tekstinėmis užuominomis, gali paskatinti reikšmingus pokyčius kūrybinio užimtumo srityje. Įprastos pozicijos vaizdo įrašų, specialiųjų efektų ir animacijos srityse gali pasenti, atsižvelgiant į tokią pažangą. Nors kai kurie kūrybiniai kūriniai gali keistis tobulindami AI funkcijų priežiūrą, etišką AI naudojimą ir nukreipdami kūrybinę kryptį, kad būtų galima panaudoti AI galimybes, šio perėjimo galimybė visiems lieka neaiški.

Kita vertus, sumažindama technines ir finansines kliūtis, susijusias su vaizdo įrašų gamyba, „Sora“ gali suteikti daugiau galimybių kurti aukštos kokybės turinį. Ši demokratizacija gali paskatinti įvairaus ir išradingo turinio platinimo pakilimą. Nors įsitvirtinusiems žiniasklaidos subjektams ir turinio kūrėjams gali prireikti koreguoti ir įdiegti naujoviškus metodus, ši raida gali duoti teigiamų rezultatų.

Bet kuriuo atveju po masinio išleidimo Sora neabejotinai sukels pokyčius vaizdo įrašų ir susijusiose pramonės šakose, taip pat asmeninio turinio kūrime.

Ilgalaikės pasekmės OpenAI sora

Kai Sora įsitvirtina profesionaliose darbo eigose, jos ilgalaikis poveikis atsiskleidžia:

Didelės vertės naudojimo atvejų atrakinimas: „Sora“ integracija įvairiose pramonės šakose žada transformacines programas, įskaitant:

  • Pagreitinta turinio gamyba: „Sora“ supaprastina medijos kūrimą VR, AR, žaidimų ir tradicinių pramogų sektoriuose, pagreitina gamybos ciklus ir palengvina idėjų kūrimą.
  • Suasmenintos patirtys: atsiranda pritaikytas turinys, kurį kuruoja Sora, kad atitiktų individualius pageidavimus, keičiant pramogų ir švietimo paradigmas, kad jos atitiktų įvairius mokymosi stilius ir skonį.
  • Pritaikymas realiuoju laiku: „Sora“ įgalintas dinaminis vaizdo įrašų redagavimas leidžia tiesioginiu būdu keisti turinį, patenkinti auditorijos pageidavimus ir gauti atsiliepimus realiuoju laiku.
  • Skaitmeninių ribų suliejimas: „Sora“ sinergija su VR ir AR sulieja ribas tarp fizinės ir skaitmeninės sferos, pateikdama naujus įtraukiančius potyrius ir interaktyvių istorijų pasakojimo galimybes.

Iš esmės „Sora“ atsiradimas skelbia AI pagrįsto turinio kūrimo transformacijos erą, iš esmės keičiančią pramonės šakas, pasakojimus ir vartotojų patirtį.

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Zhauhazyn yra tekstų rašytojas ir sociologijos specialybės specialistas. Susižavėjusi sudėtinga mokslo ir technologijų studijų dinamika, ji gilinasi į Web3 su karšta aistra blockchain.

Daugiau straipsnių
Zhauhazynas Shadenas
Zhauhazynas Shadenas

Zhauhazyn yra tekstų rašytojas ir sociologijos specialybės specialistas. Susižavėjusi sudėtinga mokslo ir technologijų studijų dinamika, ji gilinasi į Web3 su karšta aistra blockchain.

Institucinis apetitas Bitcoin ETF atžvilgiu auga dėl nepastovumo

13F paraiškų atskleidimas atskleidžia žymius institucinius investuotojus, kurie naudojasi Bitcoin ETF, o tai rodo, kad vis labiau pritariama...

Žinoti daugiau

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
Donaldo Trumpo perėjimas prie kriptovaliutų: iš oponento į advokatą ir ką tai reiškia JAV kriptovaliutų rinkai
Atsakingas verslas rinkos Istorijos ir apžvalgos Technologija
Donaldo Trumpo perėjimas prie kriptovaliutų: iš oponento į advokatą ir ką tai reiškia JAV kriptovaliutų rinkai
Gali 10, 2024
3 sluoksnis šią vasarą pristatys L3 žetoną, skirdamas 51 % visos tiekimo bendruomenei
rinkos Naujienų ataskaita Technologija
3 sluoksnis šią vasarą pristatys L3 žetoną, skirdamas 51 % visos tiekimo bendruomenei
Gali 10, 2024
Paskutinis Edwardo Snowdeno įspėjimas „Bitcoin“ kūrėjams: „Padarykite privatumą protokolo lygio prioritetu arba rizikuok jį prarasti
rinkos saugumas Wiki programinė įranga Istorijos ir apžvalgos Technologija
Paskutinis Edwardo Snowdeno įspėjimas „Bitcoin“ kūrėjams: „Padarykite privatumą protokolo lygio prioritetu arba rizikuok jį prarasti
Gali 10, 2024
„Optimizmo“ maitinama „Ethereum Layer 2 Network Mint“, kurios pagrindinis tinklas bus paleistas gegužės 15 d.
Naujienų ataskaita Technologija
„Optimizmo“ maitinama „Ethereum Layer 2 Network Mint“, kurios pagrindinis tinklas bus paleistas gegužės 15 d.
Gali 10, 2024
CRYPTOMERIA LABS PTE. LTD.