Çfarë është Sora?
Sora është modeli i AI gjenerues tekst në-video i OpenAI. Kjo do të thotë që ju shkruani një kërkesë teksti dhe krijon një video që përputhet me përshkrimin e kërkesës.
Si funksionon Sora?
Ashtu si modelet e inteligjencës artificiale që gjenerojnë tekst në imazh si DALL·E 3, StableDiffusion dhe Midjourney, Sora është një model difuzioni. Kjo do të thotë se fillon me çdo kornizë të videos që përbëhet nga zhurmë statike dhe përdor mësimin e makinës për të transformuar gradualisht imazhet në diçka që i ngjan përshkrimit në kërkesë. Videot Sora mund të zgjasin deri në 60 sekonda.
Zgjidhja e konsistencës kohore
Një fushë e inovacionit në Sora është se ajo merr në konsideratë disa korniza video në të njëjtën kohë, gjë që zgjidh problemin e mbajtjes së objekteve të qëndrueshme kur ato lëvizin brenda dhe jashtë pamjes. Në videon e mëposhtme vini re se dora e kangurit lëviz disa herë nga gjuajtja dhe kur kthehet, dora duket njësoj si më parë.
Kombinimi i modeleve të difuzionit dhe transformatorit
Sora kombinon përdorimin e një modeli difuzioni me një arkitekturë transformatori, siç përdoret nga GPT.
Kur kombinohen këto dy lloje modelesh, Jack Qiao vuri në dukje se "modelet e difuzionit janë të shkëlqyera në gjenerimin e strukturës së nivelit të ulët, por të dobët në përbërjen globale, ndërsa transformatorët kanë problemin e kundërt". Kjo do të thotë, ju dëshironi një model transformatori të ngjashëm me GPT për të përcaktuar paraqitjen e nivelit të lartë të kornizave të videos dhe një model difuzioni për të krijuar detajet.
Në një artikull teknik mbi zbatimin e Sora, OpenAI ofron një përshkrim të nivelit të lartë se si funksionon ky kombinim. Në modelet e difuzionit, imazhet ndahen në "arna" më të vogla drejtkëndëshe. Për video, këto arna janë tre-dimensionale sepse ato vazhdojnë me kalimin e kohës. Arnimet mund të mendohen si ekuivalenti i "shenjave" në modelet e mëdha gjuhësore: në vend që të jenë një përbërës i një fjalie, ato janë një përbërës i një grupi imazhesh. Pjesa e transformatorit të modelit organizon arna, dhe pjesa e difuzionit të modelit gjeneron përmbajtjen për secilën patch.
Një tjetër veçori e kësaj arkitekture hibride është se për ta bërë gjenerimin e videove të realizueshme nga pikëpamja llogaritëse, procesi i krijimit të arnimeve përdor një hap të reduktimit të dimensioneve në mënyrë që llogaritja të mos ketë nevojë të ndodhë në çdo piksel të vetëm për çdo kornizë të vetme.
Rritja e besnikërisë së videos me ripërshkrime
Për të kapur me besnikëri thelbin e kërkesës së përdoruesit, Sora përdor një teknikë ripërshkrimi që disponohet gjithashtu në DALL·E 3. Kjo do të thotë se përpara se të krijohet ndonjë video, GPT përdoret për të rishkruar kërkesën e përdoruesit për të përfshirë shumë më tepër detaje. Në thelb, është një formë e inxhinierisë automatike të shpejtë.
Cilat janë kufizimet e Sorës?
OpenAI vë në dukje disa kufizime të versionit aktual të Sora. Sora nuk ka një kuptim të nënkuptuar të fizikës dhe kështu rregullat fizike "të botës reale" mund të mos respektohen gjithmonë.
Një shembull i kësaj është se modeli nuk e kupton shkakun dhe pasojën. Për shembull, në videon e mëposhtme të një shpërthimi në një unazë basketbolli, pasi rrethi shpërthen, rrjeta duket se është restauruar.
Të gjithë shembujt nga OpenAI janë me cilësi shumë të lartë, por është e paqartë se sa është përfshirë mbledhja e qershisë. Kur përdorni mjete tekst-në-imazh, është e zakonshme të krijohen dhjetë ose njëzet imazhe dhe më pas të zgjidhni më të mirën. Është e paqartë se sa imazhe gjeneroi ekipi OpenAI për të marrë videot e shfaqura në artikullin e tyre të njoftimit. Nëse ju duhet të krijoni qindra ose mijëra video për të marrë një video të vetme të përdorshme, kjo do të ishte një pengesë për miratimin. Për t'iu përgjigjur kësaj pyetjeje, duhet të presim derisa mjeti të jetë gjerësisht i disponueshëm.
Cilat janë rastet e përdorimit të Sorës?
Sora mund të përdoret për të krijuar video nga e para ose për të zgjeruar videot ekzistuese për t'i bërë ato më të gjata. Mund të plotësojë gjithashtu kornizat që mungojnë nga videot.
Në të njëjtën mënyrë që mjetet e inteligjencës artificiale gjeneruese tekst-në-imazh e kanë bërë në mënyrë dramatike më të lehtë krijimin e imazheve pa ekspertizë teknike për redaktimin e imazheve, Sora premton ta bëjë më të lehtë krijimin e videove pa përvojë në redaktimin e imazheve. Këtu janë disa raste kryesore të përdorimit.
Mediat sociale
Sora mund të përdoret për të krijuar video në formë të shkurtër për platformat e mediave sociale si TikTok, Instagram Reels dhe YouTube Shorts. Përmbajtja që është e vështirë ose e pamundur të filmohet është veçanërisht e përshtatshme.
Reklamim dhe marketing
Krijimi i reklamave, videove promovuese dhe demonstrimeve të produkteve është tradicionalisht i shtrenjtë. Mjetet e inteligjencës artificiale nga tekst në video si Sora premtojnë ta bëjnë këtë proces shumë më të lirë. Në shembullin e mëposhtëm, një bord turistik që dëshiron të promovojë rajonin Big Sur të Kalifornisë mund të marrë me qira një dron për të marrë pamjet ajrore të vendndodhjes, ose mund të përdorin AI, duke kursyer kohë dhe para.
Cilat janë rreziqet e Sorës?
Produkti është i ri, kështu që rreziqet nuk janë përshkruar ende plotësisht, por ka të ngjarë të jenë të ngjashme me ato të modeleve tekst për imazh.
Si mund të hyj në Sora?
Sora aktualisht është në dispozicion vetëm për studiuesit e "skuadrës së kuqe". Kjo do të thotë, ekspertë të cilëve u është dhënë detyra të përpiqen të identifikojnë problemet me modelin. Për shembull, ata do të përpiqen të gjenerojnë përmbajtje me disa nga rreziqet e identifikuara në seksionin e mëparshëm në mënyrë që OpenAI të mund të zbusë problemet përpara se të publikojë Sora.
OpenAI nuk ka specifikuar ende një datë të lëshimit publik për Sora, megjithëse ka të ngjarë të jetë në 2024.