Modeli quhet MusicLM, dhe ndërsa nuk mund të luani me të për veten tuaj, kompania ka ngarkuar një mori mostrash që ka prodhuar duke përdorur modelin.
Shembujt janë mbresëlënës. Ka fragmente 30 sekondash të asaj që tingëllon si këngë aktuale të krijuara nga përshkrime të gjata me paragrafë që përshkruajnë një zhanër, atmosferë, madje edhe instrumente specifike, si dhe pjesë pesëminutëshe të krijuara nga një ose dy fjalë si "tekno melodik". ” Ndoshta e preferuara ime është një demonstrim i "modalitetit të historisë", ku modelit i jepet në thelb një skenar për të marrë formë midis kërkesave. Për shembull, kjo kërkesë:
Mund të mos jetë për të gjithë, por unë mund ta shihja plotësisht këtë qenie të përbërë nga një njeri (e kam dëgjuar gjithashtu dhjetëra herë në loop ndërsa shkruaja këtë artikull). Gjithashtu në faqen demo janë paraqitur shembuj të asaj që modeli prodhon kur kërkohet të gjenerojë klipe 10 sekondash të instrumenteve si violonçeli ose maraka (shembulli i mëvonshëm është ai ku sistemi bën një punë relativisht të dobët), klipe tetë sekondash të një zhanër të caktuar, muzikë që do t'i përshtatej një arratisjeje nga burgu dhe madje si do të tingëllonte një piano fillestar kundrejt një të avancuar. Ai gjithashtu përfshin interpretime të frazave si "klubi futuristik" dhe "deth metal fizarmonikë".
MusicLM madje mund të simulojë vokalin njerëzor, dhe ndërsa duket se e bën tonin dhe tingullin e përgjithshëm të zërave të duhur, ka një cilësi të tyre që është padyshim e pavlefshme. Mënyra më e mirë që mund ta përshkruaj është se ato tingëllojnë kokrra ose statike. Kjo cilësi nuk është aq e qartë në shembullin e mësipërm, por mendoj se kjo e ilustron mjaft mirë.
Kjo, meqë ra fjala, është rezultat i kërkesës për të bërë muzikë që do të luante në një palestër. Ju gjithashtu mund të keni vënë re se teksti është i pakuptimtë, por në një mënyrë që mund të mos e kapni domosdoshmërisht nëse nuk po i kushtoni vëmendje - njësoj sikur po dëgjoni dikë duke kënduar në Simlish ose atë një këngë që ka për qëllim të tingëllojë si anglisht por nuk është.
Unë nuk do të pretendoj të di se si Google i arriti këto rezultate, por ka lëshuar një studim kërkimor që e shpjegon atë në detaje nëse jeni lloji i personit që do ta kuptoni këtë shifër:
Muzika e gjeneruar nga AI ka një histori të gjatë që daton prej dekadash; Ka sisteme që janë vlerësuar me kompozimin e këngëve pop, kopjimin e Bach-ut më mirë se një njeri në vitet '90 dhe shoqërimin e performancave live. Një version i fundit përdor motorin e gjenerimit të imazheve AI StableDiffusion për të kthyer kërkesat e tekstit në spektrogramë që më pas shndërrohen në muzikë. Gazeta thotë se MusicLM mund të tejkalojë sistemet e tjera për sa i përket "cilësisë dhe respektimit të titullit", si dhe faktit që mund të marrë audio dhe të kopjojë melodinë.
Kjo pjesë e fundit është ndoshta një nga demonstrimet më interesante që studiuesit kanë nxjerrë. Sajti ju lejon të luani audion e hyrjes, ku dikush gumëzhin ose fërshëllejë një melodi, më pas ju lejon të dëgjoni se si modeli e riprodhon atë si një element elektronik sintetik, kuartet harqesh, solo kitarë, etj. Nga shembujt që dëgjova, ai menaxhon detyrë shumë mirë.
Ashtu si me përpjekjet e tjera në këtë lloj AI, Google po tregohet dukshëm më i kujdesshëm me MusicLM sesa disa nga kolegët e tij mund të jenë me teknologji të ngjashme. "Ne nuk kemi plane për të nxjerrë modele në këtë pikë," përfundon gazeta, duke përmendur rreziqet e "keqpërdorimit të mundshëm të përmbajtjes krijuese" (lexo: plagjiaturë) dhe përvetësimit ose keqinterpretimit të mundshëm kulturor.
Është gjithmonë e mundur që teknologjia të shfaqet në një nga eksperimentet argëtuese muzikore të Google në një moment, por tani për tani, të vetmit njerëz që do të jenë në gjendje të përdorin kërkimin janë njerëz të tjerë që ndërtojnë sisteme muzikore AI. Google thotë se po lëshon publikisht një grup të dhënash me rreth 5,500 çifte tekstesh muzikore, të cilat mund të ndihmojnë gjatë trajnimit dhe vlerësimit të AI-ve të tjera muzikore.