AI Wiki Sztuka Edukacja Tworzenie Technologia
24 kwietnia 2024 r.

Powstanie Sory: Jak sztuczna inteligencja jest Redefiw krajobrazie tworzenia treści wideo

W skrócie

Sora to progresywny model sztucznej inteligencji przetwarzający tekst na wideo, który obiecuje całkowicie zmienić sposób tworzenia wideo.

Firma Adobe ujawniła niedawno plany zintegrowania ze swoimi narzędziami generatywnej sztucznej inteligencji Premiere Pro oprogramowanie. To posunięcie, które obejmuje zapewnienie użytkownikom dostępu do narzędzi takich jak OpenAISora bezpośrednio w Premiere Pro ma na celu wzbogacenie oprogramowania o funkcje oparte na sztucznej inteligencji, takie jak manipulowanie scenami i usuwanie zakłóceń.

Chociaż OpenAISora nie jest obecnie dostępna publicznie, firma Adobe zademonstrowała jej integrację z Premiere Pro jako funkcję eksperymentalną, nie podając konkretnego harmonogramu jej udostępnienia.

Sora to progresywny model sztucznej inteligencji przetwarzający tekst na wideo, który przyciągnął uwagę ze względu na obietnicę całkowitej zmiany sposobu tworzenia wideo. Obiecujące narzędzie o ekstremalnych efektach dla każdego, kto ma coś wspólnego z produkcją wideo, projektowaniem ruchu i animacją, technologia ta niesie ze sobą również istotne wyzwania.

Przyjrzyjmy się wszystkim aspektom niesamowitej i długo oczekiwanej Sory.

Tekst na wideo?

Zasadniczo Sora została zaprojektowana tak, aby tworzyć realistyczne i urzekające wizualnie filmy generowane na podstawie komunikatów tekstowych. Jako innowacyjne zastosowanie sztucznej inteligencji Sora ma na celu usprawnienie procesu produkcji wideo i zaoferowanie nowych możliwości procesów narracyjnych i komunikacji wizualnej.

Funkcjonalność Sory opiera się na jej zdolności do interpretowania i wykonywania poleceń tekstowych w celu tworzenia atrakcyjnych treści wideo. Wykorzystując zaawansowane techniki głębokiego uczenia się i rozumienie języka, Sora przetwarza wprowadzony tekst i konstruuje odpowiednie sceny wizualne z postaciami, scenerią i ruchem. Proces ten obejmuje wyrafinowaną interakcję między przetwarzaniem języka naturalnego a syntezą wideo, w wyniku czego powstają dane wyjściowe ściśle zgodne z wyświetlanymi podpowiedziami tekstowymi.

Tworząc Sorę, OpenAIzespół podkreślił znaczenie stworzenia modelu sztucznej inteligencji, który uwzględnia głębokie zrozumienie języka i solidne zrozumienie zasad wizualnego opowiadania historii. Integrując najnowocześniejsze osiągnięcia w rozumieniu języka naturalnego i syntezie wideo, projekt Sory kładzie nacisk na spójne połączenie ekspresji językowej i reprezentacji wizualnej.

Jak to w ogóle możliwe?

Zatem Sora działa jako model dyfuzyjny podobny do innych generatywnych AI, które działają z zamianą tekstu na obraz. Oznacza to, że Sora rozpoczyna każdą klatkę od statycznego szumu, a następnie przekształca obrazy w przedstawienia, które będą przypominały podany monit i opis tego, czego się oczekuje. Jest to możliwe dzięki uczeniu maszynowemu. Filmy Sora mogą trwać do 60 sekund.

Zajmując się spójnością czasową, Sora wprowadza innowacje, uwzględniając jednocześnie wiele klatek wideo, zapewniając spójność podczas poruszania się obiektów w scenie.

Łącząc modele dyfuzyjne i transformatorowe, Sora stosuje podejście hybrydowe podobne do GPTarchitektura transformatora. Jack Qiao podkreśla uzupełniające się mocne strony tych modeli, przy czym dyfuzja jest doskonała w generowaniu tekstur, ale brakuje jej globalnej kompozycji, podczas gdy transformatory przodują w określaniu układu na wysokim poziomie. Połączenie wykorzystuje zdolność transformatora do organizowania poprawek, podczas gdy model dyfuzyjny wypełnia szczegóły.

W implementacji Sory obrazy są podzielone na trójwymiarowe plamy, aby uwzględnić trwałość czasową. Odzwierciedla to proces tokenizacji w modelach językowych, gdzie łatki reprezentują elementy zestawu obrazów. Dodatkowo zastosowano etap redukcji wymiarowości, aby usprawnić wydajność obliczeniową.

Aby poprawić wierność wideo, Sora stosuje technikę tworzenia podpisów podobną do DALL E 3, W którym GPT przepisuje monity użytkownika, dodając dodatkowe szczegóły przed wygenerowaniem wideo. Służy to jako forma automatycznego, szybkiego udoskonalania, zapewniając wierne przestrzeganie danych wprowadzonych przez użytkownika.

Jak dobry jest teraz Sora?

OpenAI przyznaje, że obecna iteracja Sory ma kilka ograniczeń. Warto zauważyć, że Sorze brakuje wrodzonej znajomości fizyki, co oznacza, że ​​może nie konsekwentnie przestrzegać zasad fizycznych obowiązujących w świecie rzeczywistym.

Na przykład model nie uwzględnia związków przyczynowo-skutkowych, co skutkuje potencjalnymi niespójnościami. Podobnie rozmieszczenie przestrzenne obiektów może wykazywać nienaturalne przesunięcia.

Jeśli chodzi o niezawodność, status Sory pozostaje niepewny. Chociaż OpenAI przedstawił przykłady wykazujące wysoką jakość, nie jest jasne, w jakim stopniu doszło do selektywnej prezentacji. W aplikacjach przekształcających tekst na obraz powszechną praktyką jest generowanie wielu obrazów i wybieranie najlepszego. Dokładna liczba obrazów wyprodukowanych przez OpenAI zespołu, który ma zaprezentować filmy w artykule z ogłoszeniem, nie zostało ujawnione. Ten brak przejrzystości może potencjalnie utrudniać przyjęcie, zwłaszcza jeśli do uzyskania tylko jednego użytecznego rezultatu wymagane jest wygenerowanie setek lub tysięcy filmów. Aby złagodzić tę niepewność, musimy poczekać na szerszą dostępność narzędzia.

Gdzie Sora będzie przydatna?

Możliwości Sory obejmują tworzenie wideo od podstaw, wydłużanie istniejącego materiału i płynne uzupełnianie brakujących klatek w filmach.

Podobnie jak narzędzia sztucznej inteligencji przekształcające tekst na obraz zrewolucjonizowały tworzenie obrazów bez technicznych umiejętności edycji, Sora ma na celu uproszczenie produkcji wideo bez konieczności posiadania specjalistycznej wiedzy w zakresie edycji obrazu. Oto kilka podstawowych scenariuszy zastosowań:

  • Sora umożliwia tworzenie krótkich filmów dostosowanych do platform mediów społecznościowych, takich jak TikTok, Instagram Reels i YouTube Shorts. Szczególnie wyróżnia się w tworzeniu treści, które mogą być trudne lub niepraktyczne do sfilmowania tradycyjnymi metodami.
  • Tradycyjnie drogie przedsięwzięcia, takie jak produkcja reklam, filmów promocyjnych i demonstracji produktów, można znacznie uprościć dzięki narzędziom sztucznej inteligencji do zamiany tekstu na wideo, takim jak Sora, które oferują opłacalne rozwiązania.
  • Nawet jeśli filmy generowane przez sztuczną inteligencję nie zostaną zintegrowane z produktami końcowymi, służą jako cenne narzędzia do szybkiego ilustrowania koncepcji. Filmowcy mogą wykorzystywać sztuczną inteligencję do tworzenia makiet scen przed rozpoczęciem zdjęć, a projektanci mogą wizualizować produkty przed produkcją. Na przykład firma produkująca zabawki mogłaby zatrudnić Sorę do stworzenia makiety sztucznej inteligencji nowej zabawki statku pirackiego, aby ocenić jej wykonalność przed masową produkcją.
  • Dane syntetyczne okazują się bezcenne w sytuacjach, gdy obawy dotyczące prywatności lub wykonalności uniemożliwiają wykorzystanie prawdziwych danych. Choć zwykle stosuje się je do danych liczbowych, takich jak dokumentacja finansowa i informacje umożliwiające identyfikację, można wygenerować dane syntetyczne o podobnych właściwościach w celu zapewnienia szerszej dostępności. W dziedzinie wideo dane syntetyczne są przydatne do szkolenia komputerowych systemów wizyjnych.

Wyzwania związane z Sorą

  • Jako nowo wprowadzony produkt, ryzyko Sory nie zostało jeszcze w pełni wyjaśnione; oczekuje się jednak, że będą one podobne do tych spotykanych w modelach zamiany tekstu na obraz.
  • Bez wystarczających zabezpieczeń Sora może tworzyć niewłaściwe lub niewłaściwe treści, takie jak filmy zawierające przemoc, drastyczne obrazy, materiały o charakterze jednoznacznie seksualnym, uwłaczające przedstawienia określonych grup oraz promujące lub gloryfikujące nielegalne działania. To, co stanowi nieodpowiednią treść, może znacznie się różnić w zależności od użytkownika (np. dziecko czy dorosły) i okoliczności, w jakich powstają filmy (np. film edukacyjny na temat niebezpieczeństw związanych z fajerwerkami, w którym przypadkowo pojawiają się drastyczne sceny).
  • Przykładowe filmy udostępnione przez OpenAI pokazać, że jedną z godnych uwagi umiejętności Sory jest umiejętność tworzenia pomysłowych scenariuszy wykraczających poza rzeczywistość. Niemniej jednak ta zdolność czyni go również podatnym na generowanie „głęboki fałsz”, w których autentyczne osoby lub sytuacje są zmieniane w celu przekazania nieprawdy, czy to w sposób niezamierzony (dezinformacja), czy celowy (dezinformacja). Takie treści mogą prowadzić do poważnych konsekwencji.
  • Wyniki generowane przez generatywne modele sztucznej inteligencji są nierozerwalnie powiązane z danymi, na których zostały przeszkolone. Dlatego w wygenerowanych filmach mogą pojawić się uprzedzenia kulturowe lub stereotypy osadzone w danych szkoleniowych, co może utrwalić podobne problemy.

Co robi OpenAI Zespół Co zrobić, aby zapobiec zagrożeniom wymienionym powyżej?

Obecnie Sora jest dostępna wyłącznie dla „czerwona drużynabadacze – eksperci, których zadaniem jest identyfikacja i łagodzenie potencjalnych problemów z modelem. Badacze ci starają się generować treści, które mogą wiązać się z określonymi zagrożeniami OpenAI w celu rozwiązania i usunięcia wszelkich wątpliwości przed publicznym wydaniem Sory.

Czy Sora może zostawić mnie bez pracy?

Zdolność Sory do tworzenia najwyższej jakości treści wideo w oparciu o wskazówki tekstowe może zapoczątkować zauważalne przemiany w krajobrazie kreatywnego zatrudnienia. Konwencjonalne stanowiska w dziedzinie wideografii, efektów specjalnych i animacji mogą stać się przestarzałe w obliczu takiego postępu. Chociaż niektórzy twórcy mogą dokonać zmiany poprzez doskonalenie wiedzy specjalistycznej w zakresie nadzorowania funkcji sztucznej inteligencji, etycznego wykorzystania sztucznej inteligencji i wyznaczania kierunków twórczych w celu wykorzystania możliwości sztucznej inteligencji, wykonalność tego przejścia dla wszystkich pozostaje niepewna.

Z drugiej strony, zmniejszając przeszkody techniczne i finansowe związane z produkcją wideo, Sora może potencjalnie umożliwić szerszemu gronu osób tworzenie treści wysokiej jakości. Ta demokratyzacja może sprzyjać wzrostowi zróżnicowanej i pomysłowej dystrybucji treści. Choć może to wymagać od podmiotów medialnych i twórców treści o ustalonej pozycji dostosowania i wprowadzenia innowacyjnych podejść, ewolucja ta może zwiastować pozytywne rezultaty.

Tak czy inaczej, po masowej premierze Sora niewątpliwie spowoduje zmiany w branży wideo i pokrewnych, a także w tworzeniu treści osobistych.

Długoterminowe konsekwencje OpenAI Sora

W miarę jak Sora zakorzenia się w profesjonalnych przepływach pracy, ujawnia się jej trwały wpływ:

Odblokowywanie przypadków użycia o wysokiej wartości: Integracja Sory w różnych branżach zapewnia zastosowania transformacyjne, w tym:

  • Przyspieszona produkcja treści: Sora usprawnia tworzenie mediów w sektorach VR, AR, gier i tradycyjnej rozrywki, przyspieszając cykle produkcyjne i ułatwiając tworzenie pomysłów.
  • Spersonalizowane doświadczenia: Pojawiają się treści dostosowane do indywidualnych preferencji, których autorem jest Sora, zmieniając paradygmaty rozrywki i edukacji, aby dopasować je do różnych stylów i gustów uczenia się.
  • Adaptacja w czasie rzeczywistym: dynamiczna edycja wideo włączona przez Sorę pozwala na modyfikowanie treści w locie, uwzględniając preferencje widzów i opinie w czasie rzeczywistym.
  • Zacieranie cyfrowych granic: Synergia Sory z VR i AR zaciera granice między światem fizycznym i cyfrowym, oferując nowatorskie, wciągające doświadczenia i możliwości interaktywnego opowiadania historii.

Zasadniczo pojawienie się Sory zwiastuje erę transformacji w tworzeniu treści w oparciu o sztuczną inteligencję, gruntownie przekształcając branże, narracje i doświadczenia użytkowników.

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Zhauhazyn jest copywriterem i absolwentem socjologii. Zafascynowana zawiłą dynamiką studiów naukowo-technicznych, zagłębia się w dziedzinę nauki Web3 z żarliwą pasją do blockchain.

Więcej artykułów
Zhauhazyn Shaden
Zhauhazyn Shaden

Zhauhazyn jest copywriterem i absolwentem socjologii. Zafascynowana zawiłą dynamiką studiów naukowo-technicznych, zagłębia się w dziedzinę nauki Web3 z żarliwą pasją do blockchain.

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Przejście Donalda Trumpa na kryptowaluty: od przeciwnika do adwokata i co to oznacza dla amerykańskiego rynku kryptowalut
Biznes rynki Historie i recenzje Technologia
Przejście Donalda Trumpa na kryptowaluty: od przeciwnika do adwokata i co to oznacza dla amerykańskiego rynku kryptowalut
10 maja 2024 r.
Warstwa 3 uruchomi token L3 tego lata, przydzielając 51% całkowitej podaży społeczności
rynki Raport aktualności Technologia
Warstwa 3 uruchomi token L3 tego lata, przydzielając 51% całkowitej podaży społeczności
10 maja 2024 r.
Ostatnie ostrzeżenie Edwarda Snowdena dla twórców Bitcoina: „Uczyń prywatność priorytetem na poziomie protokołu, w przeciwnym razie ryzykuj jej utratę
rynki Bezpieczeństwo Wiki Tworzenie Historie i recenzje Technologia
Ostatnie ostrzeżenie Edwarda Snowdena dla twórców Bitcoina: „Uczyń prywatność priorytetem na poziomie protokołu, w przeciwnym razie ryzykuj jej utratę
10 maja 2024 r.
Oparta na optymizmie sieć Ethereum Layer 2 Network Mint uruchomi swoją sieć główną 15 maja
Raport aktualności Technologia
Oparta na optymizmie sieć Ethereum Layer 2 Network Mint uruchomi swoją sieć główną 15 maja
10 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.