lär dig allt om AI som genererar videor från text

Sora är OpenAI:s artificiella intelligensmodell som kan omvandla en textprompt till en video. Potentiellt en revolution inom konstnärligt skapande väcker Sora många frågor som vi strävar efter att besvara här.

video genererad av Soravideo genererad av Sora
Kredit: OpenAI

Efter att ha skapat oöverträffad entusiasm med sin ChatGPT-textgenerator och dess DALL-E-bildgenerator, presenterade OpenAI Sora, dess videogenerator. Precis som med sina andra plattformar är det ett artificiell intelligensbaserat verktyg, som kan skapa innehåll från en prompt i form av text. Sora lovar att revolutionera många kreativa användningsområden på internet och andra sektorer, här är vad du behöver veta om det.

Hur fungerar Sora?

Sora bygger, liksom GPT-modellerna, på en transformatorarkitektur. I ett neuralt nätverk kommer en transformator att använda sitt studieområde för att etablera relationer mellan komponenterna i en sekvens, vilket gör att den sedan kan modifiera en ingångssekvens till en utgångssekvens och generera ett svar på en prompt. Detta system får det att verka som att AI:n förstår frågan och funderar på att skapa ett relevant svar, men inga resonemangsförmåga är faktiskt inblandade. Dessa är algoritmer som använder matematiska representationer för att relatera begrepp till varandra.

När stora språkmodeller (LLM) använder tokens i sin verksamhet, använder Sora vad OpenAI kallar tokens. “plåster” (visuella korrigeringar). Denna teknik har redan visat sig inom området datavisualisering. Videor omvandlas till patchar genom komprimering, och dessa patchar fungerar sedan som tokens. De kan användas för att rekonstruera en video (eller en bild) med hjälp av transformatorn.

Sora plåsterSora plåster
Kredit: OpenAI

“Sora är en strömningsmodell som genererar en video som börjar med en video som ser ut som statiskt brus och som gradvis transformerar det genom att ta bort bruset i flera steg”, förklarar OpenAI. Det är möjligt att skapa en video på en gång från en enda prompt eller använda flera prompter för att förlänga eller korrigera videon allt eftersom.

Sora brusSora brus
Kredit: OpenAI

Modellen använder samma rekapitulationsteknik används av DALL-E 3. Detta består av genereringen av mycket detaljerade och beskrivande legender för att utveckla en rik visuell träningsdatabas. Modellen kan alltså dra från denna databas för att mer troget följa användarens textinstruktioner i den genererade videon.

Förutom en textuppmaning stöder Sora bearbetningsinstruktioner som innehåller en stillbild. Den skapar sedan en animation baserad på innehållet i denna bild. Uppmaningen kan till och med föreslå en video som Sora kommer att kunna utöka eller till vilken hon kan lägga till saknade scener.

Hur lång är en video genererad av Sora?

För tillfället kan Sora generera videor upp till en minut långa. Denna gräns beror på mängden resurser som krävs för att skapa en video som strikt respekterar användarens instruktioner och den önskade visuella stilen. OpenAI har inte kommunicerat om den handläggningstid som krävs för att generera en video. Feedback från tidiga användare verkar tyda på att det tar ungefär en timme att skapa en video på en minut med Sora. En sådan fördröjning representerar en stor svaghet för tjänsten, vilket hindrar användare från att effektivt korrigera sina videor med nya uppmaningar för att optimera dem och få mer relevanta resultat.

Hur bra är Soras bildkvalitet?

Sora genererar videor i definition upp till 1920 x 1080p, dvs Full HD. Den kan också producera videor i vertikalt format upp till 1080 x 1920p, och anpassa sig till alla förhållanden. Till skillnad från andra tjänster av denna typ är antalet bilder per sekund av videorna inte känt.

Sora kan skapa ultrarealistiska renderingar, men också mer abstrakta scener, enligt förfrågningarna som förklaras i prompten. Artificeringar och avvikelser i bilden kan förekomma, och vi kan märka ett fenomen av hallucinationer, som vid bildgenerering med DALL-E. Fel i rörelser, såväl som i interaktioner mellan karaktärer eller med inställningen och objekt kan också förekomma. Men de första exemplen publicerade av OpenAI är imponerande, och vi kan tro att Sora redan kan vara redo att generera reklamspots som sänds på internet eller på tv.

Enligt OpenAI:s eget erkännande behöver Sora fortfarande förbättras. “Den kan kämpa för att exakt simulera fysiken i en komplex scen och kanske inte förstår specifika fall av orsak och verkan”, medger företaget. Till exempel, om en person biter i en kaka kanske den inte har ett bitmärke. Att hantera krossat glas är också en svårighet som OpenAI stöter på. Mönstret kan bli förvirrat i de rumsliga instruktionerna för en prompt, blanda vänster och höger till exempel. Det kan också vara svårt att följa riktningsinstruktioner för en scen, till exempel en specifik bana eller kameravinkel.

Sora är å andra sidan kapabel att skapa scener med exakta detaljer om motivet och bakgrunden, att uttrycka känslor, att respektera en visuell stil, att ändra bilder flera gånger i en enda video eller till och med att anta ett specifikt filmformat, såsom 35 mm. 3D-konsistens är redan bemästrad. Sora kan generera videor med dynamiska kamerarörelser. “När kameran rör sig och roterar, rör sig människorna och elementen i scenen koherent i tredimensionellt rum”vi lär.

På samma sätt är OpenAI nöjd med Soras prestanda när det gäller tidsmässig koherens genom en video och objekts beständighet. ”Vår modell kan bevara människor, djur och föremål även när de är gömda eller lämnar ramen. Den kan generera flera bilder av samma karaktär i ett enda prov och bibehålla deras utseende genom hela videon.säger företaget.

Hur provar man Sora?

Sora är endast tillgängligt för medlemmar iOpenAI Red Teaming Network. Detta är en noggrant utvald grupp användare vars uppdrag är att testa verktygets kapacitet. Målet är att rapportera tekniska, juridiska eller etiska problem till OpenAI, så att de kan lösas innan en bredare lansering. Frågan om deepfakes oroar särskilt utgivare av videogenereringslösningar. Barriärer måste sättas upp i detta avseende. Respekt för upphovsrätten är en annan viktig fråga att ta hänsyn till.

“Vi ger också tillgång till ett antal konstnärer, designers och filmskapare för feedback om hur man kan utveckla modellen, så att den är så användbar som möjligt för kreativa proffs”, rapporterar också OpenAI. Företaget delar med sig av sina framsteg och öppnar dörren till Sora för ett fåtal personer utanför OpenAI just nu för att få så mycket feedback som möjligt och förbättra sitt verktyg. Vi vet ännu inte när Sora blir tillgänglig för allmänheten, eller i vilken form.

Kommer Sora att integreras i ChatGPT?

Vi vet för närvarande inte hur OpenAI avser att distribuera Sora till allmänheten. Om vi ​​förlitar oss på de senaste strategiska beslut som företaget tagit är det inte säkert att verktyget har en egen användarplattform. DALL-E 2 accepterar inte längre nya klienter på sitt eget gränssnitt, medan du måste gå igenom en betal- eller utvecklarversion av ChatGPT för att komma åt DALL-E 3. Vi kan därför tänka oss att när den lanseras kommer Sora att integreras direkt i ChatGPT Plus. Det är inte säkert att gratis tillgänglighet, även begränsad, av Sora kommer att erbjudas när den släpps.

ChatGPTChatGPT
Kredit: 123RF

Vilka säkerhetsåtgärder är inbyggda i Sora?

Innan Sora görs tillgänglig för allmänheten har OpenAI redan aviserat en rad åtgärder för att minska riskerna för missbruk av detta kraftfulla verktyg. Företaget utvecklar för närvarande verktyg “för att hjälpa till att upptäcka vilseledande innehåll”, särskilt med hänvisning till ett klassificeringssystem för att göra det möjligt att upptäcka en video som genererats av Sora. Det anges också att om modellen skulle integreras i en OpenAI-produkt i framtiden, planerar teamen att inkludera C2PA-metadata. Denna öppna standard, som redan används för bilder genererade av DALL-E 3, gör det möjligt att spåra innehållets ursprung för att veta om det skapades av en AI eller inte.

Sora kommer också att dra nytta av säkerhetsfunktioner som redan är implementerade i andra av dess tjänster. Är planerad a textklassificerare vars roll är att kontrollera och avvisa uppmaningar som bryter mot OpenAI:s användningspolicy. Uppmaningar som begär innehåll som visar extremt våld, sexuellt innehåll, hatiska bilder, en likhet med en kändis eller en tredje parts IP-adress är förbjudna. Dessutom kommer bildklassificerare att undersöka bilderna av varje genererad video för att säkerställa att ingen video bryter mot dessa kända användningspolicyer.

Vilka är Soras konkurrenter?

Efter text- och bildgenereringsmodeller arbetar de stora aktörerna inom generationens artificiell intelligens på allvar med utvecklingen av videogenereringsmodeller. Google är en av de främsta konkurrenterna till ChatGPT och GPT-4 med Gemini, det poserar också som en tuff motståndare inom området för videoskapande med Lumiere. Google Lumiere, som också är otillgängligt för allmänheten, är för närvarande begränsad till fem sekunder långa videor. Uppmaningen kan innehålla en bild, inte bara text.

Bland de digitala tungviktarna är Meta också intresserade av ämnet, särskilt med Emu video, som låter dig skapa videor från en text-enbart-prompt, en bild-enbart-prompt eller en kombination av båda. Vi kan citera Gen-2, från Runway, som kan skapa videor inte bara från text eller bilder, utan också från en annan video. Stable Video Diffusion och Pika är också seriösa utmanare på denna marknad.

Leave a Reply

Your email address will not be published. Required fields are marked *