Inteligjenca Artificiale rishkruan këngën "Bella Ciao". A po ndryshon muzika?

Duke pritur për Sparrow - inteligjencën artificiale me të cilën Google do t'i përgjigjet ChatGpt - gjigandi Mountain View ka zbuluar një model të ri, interesant të AI, i aftë për të gjeneruar muzikë duke filluar nga një përshkrim i thjeshtë teksti.

Dhe për këtë arsye, ashtu si sot ne përdorim ChatGpt për të marrë një histori ose një poezi duke filluar nga një pyetje e shkruar, në të ardhmen do të jemi në gjendje të marrim muzikën që duam duke kërkuar për shembull MusicLM të prodhojë "melodinë relaksuese të një violinë e shoqëruar me një riff kitarë të deformuar”.

Në punimin shkencor të publikuar nga Google dhe të firmosur nga disa studiues italianë, ka shembuj të shumtë tingujsh dhe këngësh shumë të shkurtra të prodhuara nga MusicLM, e cila është trajnuar me një vëllim të dhënash që përfshin 280 mijë orë muzikë.

Ka, për shembull, audio të prodhuara duke filluar nga një përshkrim shumë i detajuar. Si ky: “Një shkrirje e muzikës reggaeton dhe kërcimit elektronik, me një tingull të botës tjetër, hapësinor. Të fton të humbasësh veten në hapësirë ​​dhe të ngjall një ndjenjë habie dhe frike, ndërkohë që kërcehesh.” Tridhjetë sekondat e krijuara nga ky tekst i përgjigjen, pothuajse në mënyrë të përsosur, përshkrimit të dhënë përmes fjalëve.

Në këtë drejtim, duhet mbajtur mend se AI gjeneruese - e çdo lloji - duhet të udhëhiqet sa më shumë nga fjalët e qenieve njerëzore për të dhënë më të mirën e saj. Një pyetje sipërfaqësore, gjenerike ose e shkurtër, në fakt, gjithmonë do të prodhojë përmbajtje mjaft të parëndësishme dhe me cilësi të dobët. Sekreti, pra, qëndron në të ashtuquajturën 'prompt', d.m.th. në komandën e tekstit që i jepet inteligjencës artificiale për të marrë jo vetëm tekst, por edhe imazhe (mendoni Dall-E dhe Midjourney) ose, në të vërtetë, tinguj.

Me MusicLM, përveç teksteve, mund të përdorni një melodi para-ekzistuese për të ndikuar në secilën kërkesë. Në studimin e publikuar nga Google ka një shembull të kësaj teknike të aplikuar tek “Bella ciao”. Dhjetë sekondat e para të kësaj pjese i ofrohen AI, thjesht fishkëllehen ose gumëzhiten, dhe më pas versioni alternativ që do të merret specifikohet me një mesazh teksti. Dhe kështu, në mënyrë magjike, "Bella ciao" interpretohet nga "a a a capella choir", ose kumbon në formën e një "solo kitare", ose përsëri si rezultat i "një grupi xhaz të pajisur me saksofon".

Kreativiteti i MusicLM mund të prodhojë rezultate të papritura. A keni menduar ndonjëherë se si tingëllon një pikturë? Epo, studiuesit e Google kërkuan inteligjencën artificiale, duke ofruar përshkrimin e tekstit të kryeveprave të artit si "Këmbëngulja e kujtesës" e Salvador Dali. Mjaftoi të fusje, si nxitje, një fragment nga hyrja kushtuar kësaj pikture nga Enciklopedia Britannica, për të marrë 30 sekonda të një melodie eterike të karakterizuar nga notat e një pianoje.

Por nuk mbaron me kaq. AI mund t'i kërkohet gjithashtu të vendosë nivelin e përvojës së një lojtari. "Luani si një pianist fillestar", për shembull, ose "si një pianist profesionist". Ose, në ekstrem, si “një pianist profesionist çmendurisht i shpejtë”.

Ajo që MusicLM ende nuk është në gjendje të bëjë, megjithatë, është të prodhojë një këngë me vargje të ndjeshme, fjalë të qarta dhe të dallueshme. Çdo gjë bashkohet, kur përpiqet, me një efekt të ngjashëm me atë që merrni kur i kërkoni një AI të gjenerojë një karikaturë duke filluar nga një nga selfiet tona: rezultati nuk na ngjan kurrë plotësisht, shpesh është rezultat i bashkimit të fytyrave të marra nga bazën e të dhënave nga e cila mëson secili model.

"MusicLM gjeneron muzikë 24 kHz që mbetet koherente për disa minuta - lexohet në letrën e nënshkruar nga studiuesit e Google -. Eksperimentet tona tregojnë se MusicLM tejkalon modelet e mëparshme si në cilësinë e audios ashtu edhe në respektimin e përshkrimit të tekstit.

Në të vërtetë, ekzistojnë tashmë modele të ngjashme të AI me MusicLM. Një prej tyre, Dance Diffusion, u zhvillua nga Google. Por ka të tjera jashtëzakonisht kurioze, të tilla si Riffusion që ju lejon të gjeneroni muzikë - jashtëzakonisht - duke filluar nga një imazh, për të qenë të saktë nga një spektrogram. Por asnjë nga këto inteligjenca artificiale, deri më tani, nuk kishte arritur të arrinte kompleksitetin zanor dhe besnikërinë e lartë që e dallojnë MusicLM.

Tani për tani po flasim vetëm për një punim shkencor, domethënë studimin e një teknologjie që është ende në testim dhe mbi të gjitha që nuk është ende e hapur për publikun, por rezultatet e punës së Google janë mjaft mbresëlënëse dhe sugjerojnë, Edhe një herë, sa do të ndryshojë AI (dhe thjeshtuar) mënyrën se si ne prodhojmë përmbajtje të destinuara për masat.

Për tekstin dhe imazhet, revolucioni tashmë është duke u zhvilluar. Ne jemi pothuajse atje për audio. Dhe madje edhe videot së shpejti do të gjenerohen shpejt nga një inteligjencë artificiale.

Por pikënisja, imagjinata pas çdo sugjerimi, do të vazhdojë të jetë 'njerëzore'. Në fakt, vetëm një njeri mund të pyesë veten se çfarë kolone zanore mund të ketë një pikturë.