ožu

2023

Digital & Biz

Od teksta, vokala do spota

Umjetna inteligencija: napravi doma svoj glazbeni proizvod

Igor Jurilj

Umjetna intwligencija, deep fake, strojno učenje

Izaberi dijelove svog glazbenog izdanja / Ilustracija: Igor Jurilj

Budućnost glazbe: tko će živ pjevati za deset godina?

Zamislite: s kauča stvarate idealnu glazbu, pjesme i albume, a bez potrebe da išta svirate ili kupujete. Zamislite idealno izdanje u kojem sami birate najdraži glas, pridružujete mu omiljeno lice, sami pišete tekstove i, skladate glazbu u željenom stilu, za to sve još napravite videospot i naslovnicu s postojećim likom, a ni u kom trenutku nemate posla sa živim ljudima? Bez brige, čim imate mobitel ili laptop, sjedite na kauču budućnosti. Budućnost je već sada.

Budućnost je ovdje već neko vrijeme, a 2023. mogla bi biti početak nove ere. Barem glazbene. Ako ste otvorili ovaj naslov, velike su šanse da ste čuli, možda i zaigrali s famoznim Chatom GPT – umjetnom inteligencijom koja kompilira najrazličitije tekstualne forme iz baze podataka internetskog oceana. Što god vam padne napamet, proizvod OpenAI-a će vam stvoriti odgovor. No to je samo zrnce pijeska prostranog žala generativnih platformi.

Ako vam se duša napaja na izvoru TikToka, niste mogli izbjeći Toma Cruisea kao influensera, Morgana Freemana kao političara ili ukrajinskog lidera Volodimira Zelenskog kako poziva na predaju Rusima. Dok bi naše babe rekle „niđe veze”, naši tinejdžeri „fejk”, ja bih rekao – deep, deep fake. Duboka laž koja bi mogla izaći iz dubokog grla. Kakve veze jedno s drugim imaju Chat GPT i deepfake? Zajednički nazivnik: umjetna inteligencija.

Je li došlo vrijeme kada nam više ne trebaju autori? Izvođači? Diskografi? Hoćemo li – kao danas playliste – uskoro slagati idealnu kombinaciju lika, glasa i teksta? Vežite se. Kompiliramo!

Duboka laž za duboko grlo

Deepfake je tehnologija koja nas je uvjerila da nam se obraća lice nekog drugog. Ona se koristi umjetnom inteligencijom (AI) i tehnologijama strojnog učenja (objašnjenje u daljnjem tekstu) za stvaranje realističnih videozapisa u kojima se na lica snimanih osoba uvjerljivo projicira posve realistično lice druge osobe. Efekt: možemo se obraćati tuđom glavom i glasom.

Upotrijebljen je prvotno 2017. godine u, očekivano, zabavne svrhe kada su na scenu mobilnih aplikacija nastupile one koje mijenjaju lica iz videozapisa prema želji korisnika. Najprije su napravljeni kratki zabavni predlošci s isječcima iz filmova i poznatih scena popularne kulture. Tako smo vidjeli Willa Smitha kao Nea iz Matrixa, sami sebe smo u par klikova i fotkanja unijeli u Brze i žestoke, Zvjezdane ratove, a onda se sve načas preselilo u svijet pornografije. Prljavo.

Zvuči smiješno? Nimalo.

Upravo se u pornografiji javljaju prve crvene lampice upozorenja o opasnostima preuzimanja lika bez dopuštenja. Zamislite se u situaciji da je u rasprostranjenom porno uratku vaše lice, a preuzeto je s jedne od tisuća fotografija ostavljenih na internetu posljednjih desetljeća.

Američke su agencije, ali i političari odmah reagirali i upozorili na opasnosti, no kad je glas jednom pušten – nemoguće je vratiti ga.

Tvoje lice zvuči lažno

Dok bismo čekali autobus, na plaži, u kafiću s prijateljima na ležernoj kavi, iz zabave, znatiželje i ega na aplikacijama bismo stavljali lik na junake u slavnim filmskim scenama, u desetak sekundi bismo postajali frontmeni popularnih bendova i tako unedogled. Bez imalo slutnje kako nam se deepfake može obiti o glavu u svojim začecima kada ne postoji ni previše svijesti o kontroli ove tehnologije. Uostalom, mačak je ispao iz vreće. Tko ga može vratiti?

Prije negoli zaronimo u bezdan duboke laži, predstavio bih i jedan od zazornih trendova 2022. godine na platformi TikTok koja je preuzela svijet svojim frenetičnim videima. Među njima se pojavljivao slavni glumac mladolikog lica u situacijama koje ne djeluju tipično za njega, ali – osim ako se ne radi o klonu – uvjereni smo da gledamo i slušamo najpoznatijeg kaskadera među najvećim glumcima. Tom Cruise. Čovjek jede doručak s Paris Hilton, pjeva pjesme Davea Matthewsa ili pleše iritantnu koreografiju trenda nazvanog po pjesmi ’’Jiggle Jiggle’’.

Kendrick Lamar vratio se nakon pet godina izbivanja na scenu videospotom za “The Heart Part 5” gdje se njegovo lice transformira u O.J. Simpsona, Kanyea, Jussieja Smolletta, Willa Smitha, Kobeja Bryanta, Nipseyja Husslea i Marvina Gayea. Kako? Uz pomoć DEEP VOODOO – irske tehnološke firme poznate i po satiričkim videima deepfakea Donalda Trumpa ili Marka Zuckerberga.

Ne treba nas prestraviti išta od spomenutog jer smo već odavno aplicirali Face Swap na popularnim aplikacijama društvenih mreža kroz filtere. Već nekoliko godina poznajemo i mogućnost sintetiziranja glasova ljudi. Igramo se s umjetnom inteligencijom otkako je Googlea (mape, prevoditelj, tražilica), a deepfakeom još otkako je Trump bio inauguriran. A skoro smo ga već i zaboravili…

Poveznica nije banalna ni slučajna, jer pretpostavlja se da se tehnologija već koristi u političkoj propagandi kao moćno, ali opasno agitacijsko sredstvo koje zamućuje granice istine. Era Trumpa bila je transformativna za cjelokupni globus također i zbog manipulacije tehnologijom i komunikacijama pri čemu je deepfake samo zagrebao ispod površine svojih mogućnosti.

Prednosti deepfakea sigurno će se naći u činjenici da će odabrani doista moći prodati svoj lik poput kakvog proizvoda za daljnje korištenje bez fizičke prisutnosti. Prodaja identiteta. Tako glumci u budućnosti ne bi morali odlaziti na setove i fizički se angažirati, nego bi neki drugi preuzeli njihov plaćeni lik i igrali odabrane uloge, a time nastavljali primjerice franšizu i popularnost slavnog imena. Prodajom prava na vlastiti lik otvorilo bi se ponovno vječno pitanje mladosti: treba li uopće starjeti? U kulturi opsjednutoj ljepotom i mladosti, a uz deepfake pojedinci iz industrije zabave ne bi – ako to nije potreba audiovizualnog djela – starjeli. Kako biste reagirali na Olivera, mladog Štulića, Freddieja, Dinu ili Amy Winehouse u nekom novom, ali mladom ruhu?

OK, dakle, sada kada znamo da uz pomoć živih glumaca (a to smo svi mi ako nam je dostupna tehnologija) možemo kao Nick Cage i John Travolta zamijeniti lica i uvjeriti svijet da smo netko od glazbenih imena. Što je s glasom?

U kojem će nam trenutku prestati trebati pjevači? Već smo zašli u eru sintetičke stvarnosti i pitanje je što ćemo u njoj – osjećati. I kroz koga se glasati.

Neupitno je da u ogromnom korpusu ustupljenih podataka i informacija na Internetu napravljena velika baza zvučnih zapisa. Glasovi milijardi nas na brojne su načine pronašli put do servera koliko i slušatelja, a jedinice i nule ovih zvučnih valova zapisale su ih u kodovima koji se daju iskoristiti za daljnju obradu. I to takvu da kao što po želji možemo mijenjati tuđa lica na jednom tijelu, tako možemo i mijenjati glasove za tekstove po želji i pridodati ih kojem god licu želimo. Miks, remiks, Lego, đuveč. Kako vam je draže.

„Sve što se može iskoristiti za generiranje teksta može se onda kroz umjetnu inteligenciju i koristiti za generiranje zvuka. Zato sve ovisi o formi inputa i outputa” – Nikola Živković

U 2020. tehnološka je kompanija koja nam ulazi u uho u posljednje vrijeme – OpenAI – lansirala projekt imena Jukebox – neuralna mreža. Sposobna je sada sintetizirati kombinacije tisuća postojećih pjesama te glasova pjevačica i pjevača. Prodorna tehnološka skupina prije svega je zaljubljena u glazbu, odakle i nadahnuće u kontekstu slaganja algoritama koji bi mogli promijeniti moduse konzumacije glazbe kakve smo znali dosad. Tu je i najnoviji Microsoftov Vall-E – model koji pretvara tekst u glas, a odmah se u uvjetima rada napominje da može rezultirati sintezom postojećega ljudskog glasa.

Počelo je sa Sinatrom koji pjeva “Toxic” Britney Spears, a zamislite što bi Ivo Robić mogao “učiniti” sa stihovima Porta Morta? Kako bi li se Massimo pozabavio Dinom Dvornikom ili Toma Bebić jednim Tomom Waitsom? Kako bi tek Joža Manolić tek mogao okrenuti 2PAC-a slobodnim stilom.?

Odgovore na ova retorička pitanja mogli biste dobiti prije nego što to mislite, a vi sami biti kustosi novih glazbenih prostranstava u kojima biste se čak i htjeli izgubiti. Ja svakako bih. Zapišite me!

Kuda plovi ova inteligencija?

Teško da će, barem iz perspektive sadašnjice, algoritamska glazba zamijeniti usmjeravanje nakupljenih intenzivnih emocija u mikrofon ili prema predivnim krajobrazima instrumenata koje su ljudske kulture i civilizacije stvarale posljednjih desetak tisuća godina na svim mogućim križištima ekvatora i paralela. Kevin Kelly, osnivač Wireda, umjetnu inteligenciju smatra sljedećim evolucijskim korakom prema širenju raznolikosti. On je istovremeno optimistično povezuje s mindfulnessom, a nikako ne predstavlja kao robotiziranu budućnost s obezvrijeđenim ljudskim bićem spram tehnologije.

Formalistički gledano, ima li u kreativnom postupku razlike u odnosu na tradicionalno stvaranje? Hoće li personalizacija i optimizacija glazbenog doživljaja ugroziti umjetničku kvalitetu? Tehnološki su potencijali oduvijek smatrani opasnima i nerijetko pogubnima za ljude.

Treba se zapitati koliko je neprirodna personalizacija glazbenog doživljaja u vremenima kada se sve optimizira prema potrebama suvremenog pojedinca? Sami već slažemo svoje playliste, na pametnim telefonima skidamo nove pjesme, društvene mreže oblikujemo prema idealnoj projekciji javnih verzija sebe… I tako u nedogled svijeta koji više negoli ikad prije krojimo prema vlastitu nagonu. I što je onda uopće autentično? Ljudsko?

Već 2018. godine Francois Pachet je lansirao prvi pop album umjetne inteligencije Hello, World, a 2019. godine kantautorica Holly Herndon se harmonizirala s njom na albumu Proto.

Capitol Records – izdavač The Beach Boysa, The Beatlesa, Becka, Bee Gees, Neila Diamonda, Paula McCartneyja ili Norah Jones – prvi je koji je ikad “potpisao” neživog izvođača, odnosno “zamišljenog” umjetnika kojem je sintetički stvoren glas, ali i tekst. FN Meka ime je stoposto virtualnog repera koji svojim, ljudskim glasom kaže: „izvodi vokale, ali radi na mogućnosti da računalo stvara i izvodi njegove riječi, pa čak i surađuje s drugim računalima kao ko-autorima.”

Digitalni reper kojeg je generirala umjetna inteligencija brzo je “otkazan” nakon negativnih kritika na njegove rasističke stihove. Dokumentarac Coded Bias na Netflixu kroz legitimaciju znanstvenika na MIT-ju dokazuje da su takve pojave kod umjetne inteligencije standardne jer naprosto uče iz sveopćeg korpusa, a njime upravlja šačica privilegiranih ljudi (nota bene, apsolutno zazirem od generacije wokea).

Kreativni su znanstvenici otišli i korak dalje pa dizajnirali cijele persone što je vrlo praskama zapadnjačkig izdavača prijelazu prošlog u ovo stoljeće sa stvarnim ljudima ne bi li ih se što bolje prodali masama. Tako je stvorena i Yona kao prva pop-zvijezda umjetne inteligencije specifična po još uvijek nerafiniranom radu. Yona podjednako generira besmislice kao i ganutljive stihove, na čemu će trebati raditi i dalje. Pritom ne treba prizivati ideje iz Terminatora ili Blade Runnera nego otvoriti mogućnost kreativnosti. Vrata su otvorena, a sada se valja upustiti u osmišljenje maštovitih playlista s vašim najdražim pjesmama, ali u izvedbi najdražih vam pjevačica i pjevača, odnosno bendova.

Kako da se usavrše ti roboti? Odgovor je: strojno učenje.

Sprski programer i glazbenik Nikola Živković u svojoj knjizi Ultimate Guide to Machine Learning posvećenoj strojnom učenju definira ga kao „granu znanosti koja koristi statističke tehnike za poduku računala kako izvoditi određene zadatke bez eksplicitnog programiranja”.

Živković piše da platforma koristi podatke „ovisno od zadatka koji rješava, algoritam se uči na odgovarajućim podacima. Ako uči generirati slike, on koristi slike s interneta, a ako uči stvarati glazbu, onda se radi dataset iz pjesama.”

Autor je, zanimljivo, bio glazbenik prije stručne programerske karijere, pa je tako profesiju spojio sa strašću 2020. godine kada je predstavio i prvi regionalni videospot “Dole u Srbiji“ napravljen uz pomoć umjetne inteligencije. U singlu dua Abrahadabra živopisno je animirao fotografije srpskih osobnosti iz kulture, znanosti i povijesti prema stihovima koje je napisao i otpjevao sa suprugom Vanjom. Danas je stručnjak u ovom području.

Postojeće platforme za našega budućeg glazbenog Frankensteina

Uradi sam: Frankenstein omiljenog lica, glasa i teksta

Napokon smo došli do digitalnog deserta: DIY glazbeno iskustvo od kojeg nitko neće ostati ravnodušan. Zamislite, kombiniramo najdražu pjesmu u glasu najdražeg izvođača s omiljenim nam licem. Glazba 3-u-1. Sami kod kuće kompiliramo od postojećih informacija izdanje kakvo još nismo doživjeli.

Već u ovom trenutku postoje platforme za generiranje svih željenih dijelova za našega idealnog virtualnog izvođača.

Platforme Dall-E, Midnight Journey i Stable Diffusion već se duže vremena rasprostranjeno koriste kao alatke za stvaranje vizualnog sadržaja iz tekstualne informacije. Laički, nešto napišete, a platforma vaš opis pretvara u sliku koju je moguće fino ispolirati, ovisno o preciznosti uputa. Tako možete sliku oblikovati prema stilskim odrednicama dotičnih vizualnih trendova ili struja, prema stilu određenih umjetnika i sl. Ovime smo dobili, recimo, vizualni identitet: naslovnicu izdanja, materijale za društvene mreže i predloške mercha. Bez previše truda i utrošenog vremena u razvijanje ideje i njezino skiciranje, pa konkretizaciju.

Naravno, videozapis je sljedeći korak kao kombinacija brzo nanizanih slika, čime je očekivano da sami stvaramo svoje animirane zapise, a DeepDream vrlo sugestivna naslova već daje imenom naslutiti da može ostvariti vaše najdublje snove.

Glavni element našeg osobno kuriranog iskustva, našeg budućeg kućnog “izdavača“, već postoji kao JukeBox AI: neuralna mreža što generira glazbu i vokale u stilsko-žanrovskoj lepezi. I ova je platforma temeljena na strojnom učenju – što više informacija i audio zapisa prođe internetom, što se platforma više koristi, veća joj je preciznost i razina kvalitete. Ako ste se prepali ove ideje, tek ćete se smrznuti na informaciju o tome da glazbu možete stvarati ne samo iz istih tekstualnih informacija i naredbi kao ranije spomenute slike ili cijele tekstove, nego glazbu možete stvarati i iz – prizora.

Stable Diffusion prvenstveno se koristi za generiranje slika, a njegov modificirani algoritam zapravo za glazbu tako da generira spektrograme kao glazbene obrasce. Tu je već popularni Riffusion demonstrirao silu umjetne inteligencije koja se već infiltrirala u naša računala, mobitele i živote poput Trojanskog konja.

Pa da sumiramo, je li vam još uvijek nezamisliv ovaj scenarij: godina je 2030. (možda i manje), uz pomoć elektroničkog uređaja na zahtjev, kao u videoigrama, odabiremo najprije željenoga glazbenog avatara (glazbeno lice) koje onda personaliziramo odabirom najdraže pjesme nekog drugog izvođača/autora, u željenom žanru i stilu i – najbitnije – željenom vokalnom kvalitetom.

Prednosti neljudskih izvođača?

Mnogim autorima-izvođačima nove tehnološke budućnosti mogle bi biti motivacija za potpuno osamostaljivanje i preuzimanje kontrole nad scenskim likom, od vizualnog identiteta, izvođačke fleksibilnosti do samih tantijema. Sve je češći trend našeg trenutka da najveći svjetski glazbenici prodaju svoje kataloge glazbe svjesni mizernih tantijema od digitalnih servisa koji su dominantan medij slušanja/konzumiranja glazbe.

Deepfake i umjetna inteligencija mogli bi smanjiti troškove produkcije, plasmana i promocije. Sȃm fizički angažman bio bi reduciran ili ostvaren prema željama i potrebama samih izvođača. Međutim, ako predviđamo budućnost u kojoj su generativne platforme svakodnevica, slijedi pravno zanimljivo razdoblje gdje će se mnoge industrije ukrstiti i sporiti oko korištenja fragmenata postojećih digitalnih zapisa koje god vrste. Na njima se generiranje i sintetiziranje novih sadržaja umjetne inteligecije, što svakako povlači pitanje adaptacije i originalnih autorskih, vlasničkih prava.

Potencijal za metaverzum: paralelno postojanje u realnoj i virtualnoj stvarnosti samo će povećati potencijal za kapitaliziranjem ljudima nalikih pojava, ali bez upliva pravih ljudi. Deepfake mogao bi tako postati i buduće transakcijsko sredstvo u samom Metaverzumu gdje će umjetna inteligencija biti ovlaštena, a već je dovoljno sposobna, voditi virtualne poslove.

Gdje su granice? Od simpatičnih aplikacija kroz koje preuzimamo identitete fikcijskih junaka, slavnih osoba ili neobičnih bića, preko artističkih videoprojekata poput Lamarova spotova, do avatara na konferencijskim aplikacijama poput Zooma, postajemo netko drugi. No u kojem trenutku ćemo znati da s druge strane ekrana stvarno ne pjeva Damir Urban? U kojem trenutku ćemo znati da nas predsjednici ili premijeri zaista ne pozivaju na mobilizaciju? Nadajmo se da će uspostavljena autorska (ili identitetska) prava na virtualni lik biti manji problem od opasnih političkih manipulacija gdje bi fake news bio mala beba za deepfake. Budućnost će, kao i uvijek, pokazati.

Prešli smo prag budućnosti: diskografija i autorstvo su pred novom epohom. Tehnologijska evolucija u 2022. dala nam je alate i instrumente koje će 2032. uzimati zdravo za gotovo; kao industrijski standard. Živi bili pa fejkali!

Izvori:

Moglo bi Vas zanimati

ožu

Digital & Biz

Koga kriviti za cijene ulaznica: koronu, streaming ili Taylor Swift?

velj

Digital & Biz

Zašto domaći izvođači ne pokreću plesne trendove na TikToku?