Docentica Mia Suhanek (FER)
„Algoritmi favoriziraju popularnu glazbu, a za pet ili deset godina mogli bi i čitati emocije“

Algoritmi imaju značajnu ulogu u našim svakodnevnim životima. Sugeriraju nam što ćemo gledati, koga ćemo pratiti, gdje ćemo večerati, koju ćemo vijest otvoriti.
Iako u teoriji sami donosimo odluke, naša je stvarnost sve češće suptilna mješavina navike, predikcije i preporuka koje bira nevidljivi prst. U tom univerzumu brzog skrolanja i kratke pažnje pluta i glazba, koja je postala još jedno područje kojim upravljaju kirurški precizni algoritamski modeli. Iza našeg digganja nove muzike danas sve rjeđe stoji posjet fizičkoj trgovini, neki urednik ili prijatelj s preporukom, a nove singlove bira složen sustav strojnog učenja koji analizira naš ukus, ponašanje i kontekst te na temelju toga servira ono što bi nam se moglo svidjeti.
No što se zapravo događa između našeg prsta na ekranu i pjesme koja nam ulazi u uho? Kako platforme znaju što volimo, kako „čitaju“ glazbu, ali i – nas? U tom nevidljivom prostoru između zvuka i osjećaja, između umjetnosti i matematike, smjestilo se znanstveno polje kojim se bavi docentica Mia Suhanek s FER-ovog Zavoda za elektroakustiku. Njena je fascinacija psihoakustika, područje koje istražuje kako zvuk utječe na čovjeka, ali i kako izgleda sve ono što stoji iza glazbe koja nas pokreće, smiruje ili vraća u neka davna ljeta.

Doc. Mia Suhanek / FER, foto Ćetković
Kako glazba dolazi do nas?
Još 2017. godine čak 30 posto sve glazbe koju su ljudi slušali na Spotifyju odabrao je algoritam. Godinu prije taj je postotak bio manji od 20 posto pa je lako zaključiti da je ovaj trend iz godine u godinu rastao, makar iz tvrtke recentno nisu objavljivali statistike na ovu temu. Prošle je godine na svim streaming servisima objavljeno oko 200 milijuna pjesama, no njih čak sto milijuna preslušano je manje od deset puta. Pa kako to da neka glazba dolazi do nas, a neka ne?
„Glazbene streaming platforme koriste podatke o dosadašnjem ponašanju za generiranje novih glazbenih preporuka. One pamte što je korisnik slušao, lajkao, što je preskočio i što je tražio. U obzir uzimaju i playliste koje netko koristi ili sam sastavlja, ali i kontekst u kojem su podatci prikupljeni, poput doba dana, uređaja s kojeg se servis koristi ili lokacije korisnika“, objašnjava nam doc. Suhanek.

Algoritam / Pexels, nemuel
Streaming platforme kombiniraju podatke o ponašanjima s analizom same glazbe i tako nam mogu preporučiti pjesme koje slušaju ljudi sličnog ukusa, ali i one koje zvuče slično onome što volimo. Za to koriste informacije o pjesmama (poput žanra, izvođača, godine izdanja ili žanrovskih oznaka), no u igru je, s napretkom tehnologije, sada uključena i detaljna analiza zvuka. Algoritmi doslovno „slušaju“ pjesme i bilježe njihove glavne karakteristike poput tempa ili ritma. Te osobine, od spektrograma (odnosno vizualnog prikaza zvuka) i tonaliteta pa do dinamike i tempa, pomažu sustavu da pronađe glazbu koja se po zvuku podudara s onim što nam se već sviđa, čak i ako je izvođač potpuno nepoznat.
Različiti pristupi preporukama
Ipak, na platformama poput YouTubea ili Spotifyja popularna glazba često dobiva više preporuka od one koju izdaju nepoznati autori. Algoritmi su zasad još pristrani i favoriziraju popularnost, kaže doc. Suhanek.
„Ove platforme žele zadržati korisnike što dulje angažirane, a mainstream glazba obično privlači najviše interakcije i pažnje. Međutim, algoritmi se i dalje razvijaju i počinju nuditi personalizirane preporuke pa bi se u budućnosti mogla uspostaviti ravnoteža između poznatih i manje poznatih pjesama. Kako algoritmi postaju pametniji, a ponašanje korisnika postaje raznovrsnije moguće je da će se manje poznata glazba početi više preporučivati, iako će mainstream i dalje biti u fokusu. Dakle, točno je da trenutačno još uvijek dominira popularna glazba“, kaže stručnjakinja.
Iako postoje neke generalne zakonitosti, među različitim servisima postoje i razlike u tome kako određuju koju će nam glazbu predložiti, tumači. Recimo, Spotify je još 2014. kupio tvrtku The Echo Nest, poznatu po naprednoj analizi glazbe i big data pristupu preporukama. The Echo Nest prikuplja podatke o navikama slušanja svakog korisnika i predviđa koju bi glazbu ta osoba mogla poželjeti čuti te se onda formiraju taste profili, interni modeli ukusa koji grupiraju preferirane žanrove i podžanrove za svakog korisnika.

Streaming servisi / Sadaf Amininia, Unsplash
„Platforme poput Spotifyja i Apple Musica koriste tehnologiju strojnog učenja, uključujući duboke neuronske mreže koje mogu analizirati zvučne značajke iz sirovih audiosnimaka. Spotifyjev Echo Nest i Appleov MusicBrainz modeli su koji pomažu platformama preporučiti pjesme koje se temelje na zvuku, a ne samo na informacijama poput žanra, izvođača ili ponašanja korisnika. Te se tehnologije koriste u suradnji s drugima. Primjerice, kolaborativno filtriranje (koje se oslanja na ponašanje drugih korisnika) dobro je za šire preporuke, dok filtriranje na temelju zvučnih značajki može predložiti pjesme koje možda nisu istog žanra ili nemaju istog izvođača, ali su glazbeno slične“, objašnjava nam stručnjakinja.
YouTubeov sustav za preporuke također uzima u obzir audio značajke, no veći naglasak stavlja na metapodatke i korisničke interakcije.
„Među te korisničke interakcije spadaju lajkovi, komentari i pregledavanja. YouTube koristi duboko učenje kako bi predložio videozapise temeljem sadržaja (vizualnog i audio) i ponašanja korisnika“, kaže.
Razumijevanje ljudskih navika
2024. godine je Google, koji je vlasnik YouTubea, objavio i da je na ovaj servis implementirao i takozvani Transformer model. Njegovo je djelovanje najlakše objasniti na primjeru. Recimo, inače volite melankoličnu i laganu glazbu, no odjednom u teretani počnete tražiti energične, brze pjesme. Tu na scenu stupa Transformer, koji uzima u obzir kontekst i sekvencu vaših akcija. Moderni sustav preporuka nastoji prepoznati tu promjenu konteksta i privremeno prilagoditi svoje zaključke. On neće ignorirati vaše ranije preferencije, ali će dati manju težinu prijašnjim preskakanjima brzih pjesama dok prepoznaje da ste trenutačno raspoloženi za workout glazbu.
Zbog svega toga ponekad nam se može činiti da algoritam bolje poznaje naš glazbeni ukus nego mi sami. Ali i da prepoznaje kako se u nekom trenutku osjećamo pa, posljedično, i kakva nam glazba u nekom trenutku treba.
„Specifične značajke zvuka kao što su tempo, harmonijska struktura, tonalitet i dinamika mogu biti ključne za kategoriziranje glazbe prema emocijama koje ona izaziva. Na primjer, durski tonaliteti obično se povezuju s ‘pozitivnim’ emocijama, dok molski tonaliteti mogu biti povezani s ‘negativnim’ osjećajima. Tu je problem što je unutar jedne pjesme moguća promjena ljestvice, no njemu se može pristupiti tako da se promatra koja je ljestvica dominantna u pjesmi, odnosno tonalitet“, priča doc. Suhanek.

Stvaranje glazbe / Pixabay
Ističe kako algoritmi za preporuku glazbe postaju sve pametniji, ali još se uvijek istražuje kako bi mogli bolje razumjeti emocionalno stanje čovjeka jer se trenutačno većina sustava temelji na samom ponašanju korisnika.
„Najtočniji način za prepoznavanje emocionalnog stanja korisnika bio bi putem fizioloških signala poput broja otkucaja srca, izraza lica ili tona glasa, ali ta vrsta podataka još uvijek nije u širokoj upotrebi u glavnim platformama zbog problema s privatnošću i tehničkim izazovima“, objašnjava.
Analizom glasa do – pjesme
Ovakva rješenja već postoje i jedan su od najintrigantnijih smjerova istraživanja tehnologije. Spotify je još 2018. godine privukao pažnju patentom koji analizom glasa prepoznaje emocionalno stanje korisnika, ali i njegovu dob, spol i naglasak. Radi se o sustavu koji voice signale kombinira s poviješću slušanja i kontekstom kako bi preporučio glazbu koja odgovara našem raspoloženju. Iako je ova ideja izazvala i negodovanja zbog privatnosti i etike, ukazuje na trend da se preporuke žele učiniti što „pametnijima“ i empatičnijima.
Ako algoritam može prepoznati da smo, primjerice, potišteni jednog kišnog poslijepodneva, možda će nam ponuditi vedrije tonove za popravak raspoloženja ili će, obratno, pripremiti prigodnu melankoličnu playlistu, ako procijeni da to želimo. Za sada nema dokaza da je Spotify implementirao takvu analizu emocija u realnom proizvodu i tvrtka je navela da „trenutačno nemaju novosti za podijeliti“ o toj tehnologiji, ali istraživanje emocija kroz AI nastavlja se i kod drugih. Amazonov fitness tracker Halo, primjerice, već analizira ton glasa korisnika tijekom dana, a vjerojatno ćemo u budućnosti vidjeti i glazbene aplikacije koje pokušavaju detektirati emocionalne signale, bilo kroz glas, izraze lica preko kamere ili obrasce tipkanja.
Uz emocionalnu komponentu, tu je i širi koncept već spomenute kontekstualne svjesnosti koji bi u budućnosti mogao biti važan za algoritme. To znači da platforme žele znati što radite dok slušate i gdje se nalazite, kako bi prema tome prilagodile glazbu. Još je 2014. Spotify najavio planove za integraciju senzora koji bi trebao otkriti je li korisnik u pokretu, koji mu je puls, možda čak i temperatura okoline i prema tome birati pjesme.
Inteligencija, prilagodba i emocionalna svjesnost
Danas već imamo naznake takvog pristupa pa nekoliko streaming servisa nudi fitness mode playlistu ili integraciju s aplikacijama za trčanje. Apple Watch, primjerice, može predložiti određenu Apple Music playlistu kad detektira početak vježbanja. Spotify je imao značajku Running koja je prilagođavala tempo glazbe vašem ritmu trčanja. Za očekivati je da će ubuduće preporuke sve više uzimati u obzir te kontekstualne podatke, među kojima su doba dana, lokacija (pa će glazba biti prilagođena, primjerice, partyju u kući ili uredskom okruženju), aktivnost (glazba za učenje, vožnju, trening) pa čak i društveni kontekst (slušate li glazbu sami ili s društvom). Sve to zahtijeva puno podataka i potencijalno zadire u privatnost pa će balans biti osjetljiv, ali tehnologija jasno ide u smjeru ambient intelligencea, glazbenih servisa koji osjećaju okolnosti i prilagođavaju se situaciji u kojoj je korisnik.

Streaming glazbe / gulsahaydgn, Pexels
„Za pet do deset godina algoritmi za preporuku glazbe vjerojatno će biti daleko inteligentniji, prilagodljiviji i emocionalno svjesniji nego što su danas. Za očekivati je da će uzimati u obzir ne samo prošlu povijest slušanja i postavke, već i fiziološke podatke korisnika u stvarnom vremenu, kao što su broj otkucaja srca i razinu stresa te emocionalne povratne informacije i kontekst, poput lokacije i aktivnosti kojom se korisnik u tom trenutku bavi“, kaže doc. Suhanek.
No stvar bi, kaže za kraj, mogla ići i u još jednom smjeru.
„Budućnost glazbe mogla bi doživjeti uspon stvaranja glazbe kreirane korištenjem umjetne inteligencije gdje algoritam nije samo tu da bi nešto preporučio, već i stvara prilagođene skladbe koje zadovoljavaju korisnikove emocionalne i fizičke potrebe u bilo kojem trenutku. S obzirom na očekivanu optimizaciju i razvoj tehnologije, sasvim je izgledna i pojava značajne problematike vezane uz razna etička pitanja i pitanja privatnosti“, zaključila je doc. Suhanek.