Category Data-analyse

Volgt Nederland de trend als het gaat om steeds kortere muziektitels?

In de jaren rond 1960 en 1970 bestond de titel van de meeste muzieknummers uit meer dan één woord. Minder dan 10 procent van de nummers had een titel die bestond uit slechts één woord. Leuke feitjes, uitgezocht door Priceonomics. Hoe ontwikkelt die trend zich in de Nederlandse muziek? Zijn onze Nederlandse artiesten gevoelig voor deze internationale trend? En worden de namen die artiesten aan hun nummers geven steeds korter? In dit artikel gaan we dit uitzoeken. Aan het einde van de analyse vind je tevens een technische uitleg, waarin wordt uitgelegd hoe de gegevens zijn verzameld en waarmee de analyse is gedaan.

Allereerst: we hebben data nodig!

Om tot een antwoord te kunnen komen hebben we eerst data nodig. Ik wil graag per jaar een overzicht van (bekende) Nederlandstalige nummers. Startpunt daarvoor is het zoeken naar hitlijsten. Iedereen kent natuurlijk de Nederlandse Top 40, die iedere week wordt samengesteld en te horen is op Radio 538. Maar helaas (voor dit onderzoekje althans!), die lijst bevat niet enkel Nederlandstalige nummers. Daarvoor moeten we ons wenden tot de wat meer op Nederland gerichte stations, zoals RadioNL en 100%NL. Een zoektochtje leverde wel een aantal hitlijsten op, maar de enige die enigszins gestructureerd (want dat is ook wel een vereiste voor data-analyse) te bekijken is gaat maar terug tot 2012. Dat is de Oranje Top 30 van RadioNL en TVOranje. Misschien bruikbaar, maar laten we nog even verder zoeken.

Er zijn in Nederland een aantal fanatieke websites die allerlei hitlijsten bijhouden. Bijvoorbeeld Top40Web.nl en MichaJans.nl. Op Top40Web.nl vond ik vervolgens jaarlijsten van de Nederlandstalige Top 10, die teruggaan tot 1991. Dat is mooi: want dat levert 24 jaar aan Nederlandstalige hits geclassificeerd naar jaartal op. Jammer genoeg hebben we dan niet de gegevens over een even lange periode als Priceonomics (zij gaan immers terug tot 1960), maar we hebben in elk geval een aanzienlijke hoeveelheid jaren.

Hoe lang zijn de Nederlandse nummers eigenlijk?

Laten we beginnen met de meest globale analyse: hoe is de verdeling van het aantal woorden in een muziektitel in z’n geheel? Dat zie je in onderstaand grafiekje. Het blijkt dus dat 3 woorden het populairst is, gevolgd door nummers bestaande uit vier woorden. De ‘een-woordige’ nummers staan op de derde plaats. In de periode 1991 – 2016 hebben 380 nummers met een titel bestaande uit 1 woord de Nederlandstalige Top 10 weten te behalen.

aantalwoordenpernummer

Worden titels van nummers steeds korter?

Nu we dat weten kunnen we door de tijd heen kijken: is er een trend waarneembaar voor deze één-woordige nummers? Dus: zijn er de laatste jaren meer nummers uitgebracht met een titel van slechts één woord, vergelijken met zo’n 20 jaar geleden? Dat zien we niet terug, kijk maar naar de gegevens hieronder. Je ziet hier hoeveel procent van de nummers ieder jaar een titel had die uit één woord bestond. Dat wisselt door de jaren aardig, met 2015 wel als absoluut hoogtepunt. Maar van een trend lijkt geen sprake, op basis van deze gegevens.

1woordigemuziektitelsperjaar

Eigenlijk lijkt het eerder het omgekeerde: rond 2010 en de jaren daarna ligt het aantal juist lager dan in de periode rond 2000-2005. Maar nu kijken we alleen naar de nummers die een titel hebben van één woord. Wat als we naar alle hits uit deze jaren kijken. Misschien neemt het aantal woorden in muziektitels door de jaren heen wel af? Dat is namelijk ook wat Priceonomics vond: de namen van nummers van The Beatles bestaan uit meer woorden dan de namen van de nummers van Justin Bieber bijvoorbeeld. Dát blijkt ook in de Nederlandse muziek het geval. Kijk maar naar het plaatje hieronder. Daarin is een trend te zien dat muziektitels gemiddeld gezien korter worden. De laatste jaren bestaan de nummers gemiddeld uit ongeveer 3,5 woorden, waar dat in het begin van de jaren 90 een stukje hoger lag. Toen waren er drie jaren met gemiddeld meer dan vier woorden in de titel. Sinds 1996 is zo’n jaar niet meer voorgekomen.

De trendline die je ziet weergeeft een lineaire regressie. N.a.v. een opmerking op Reddit een kleine aanvulling daarop: de R-kwadraat-waarde is 0.4. Dat betekent dat deze analyse aangeeft sprake is van een zwak verband.

lengtevanmuziektitelsperjaar

Kortom: ook in Nederland worden titels van nummers korter

Worden titels van nummers steeds korter in Nederland, net zoals wereldwijd het geval is? Er lijkt inderdaad een verband dat de titels gemiddeld korter worden door de tijd heen, maar bij deze analyse blijft het bij een zwak verband.

Er worden in Nederland niet extreem veel nummers uitgebracht die als titel slechts één woord hebben. Hoewel er best veel populaire nummers in het Nederlands worden uitgebracht met een titel van slechts één woord, zien we in de meest recente jaren geen toename, als we kijken naar de gegevens van de laatste 25 jaar. Het wisselt erg per jaar.

Een stukje techniek

Voor de geïnteresseerden, een klein stukje uitleg hoe de data voorbereid is om te kunnen analyseren. Want, voor de analyse van de gegevens is één ding wel belangrijk. Het moet gestructureerd zijn opgeslagen. Want als je analyses wilt uitvoeren, is één formaat voor je data wel handig. Op Top40Web staat ieder jaar namelijk op een losse pagina. Dat betekent 24 pagina’s, met op iedere pagina alle Nederlandstalige hits van dat jaar.

Met een klein stukje PHP-code kunnen we die 24 pagina’s inladen, en de benodigde informatie scrapen. Dat scrapen (eigenlijk: “het filteren van specifieke informatie uit een webpagina”) heb ik gedaan middels een reguliere expressie. Als je de broncode van de pagina’s op Top40Web bekijkt dan zie je dat alle artiesten en titels in een tabel worden getoond. De kolom uit de tabel die wij willen hebben kunnen we filteren met deze reguliere expressie: #<td><strong>(.*?)</strong></td>#. Deze expressie zorgt ervoor dat we alle tekst krijgen die te vinden is tussen de <td><strong> tags op de pagina. En dat levert alles op wat we willen, in het formaat Nummer – Artiest. De uitkomst van de reguliere expressie moeten we dus nog opknippen in twee stukjes, zodat we de artiest en de titel van het nummer los hebben. Dat kan in PHP met de explode functie. Benieuwd naar de volledige code om de dataset samen te stellen? Deze kun je bekijken op Github  door hier te klikken.

Vervolgens kan het worden opgeslagen in een tabel in een database. We hebben nu een tabel met voor ieder nummer het jaar waarin ‘ie in de charts voorkwam, de naam van de artiest, en een veldje met het aantal woorden (de lengte van de titel van het nummer).  En dan kan de analyse echt beginnen!

Meer dan 20 jaar Nederlandse hits, gestructureerd in een database
Meer dan 20 jaar Nederlandse hits, gestructureerd in een database

De laatste twee grafieken die je ziet zijn gemaakt met RStudio. Met de taal R is het namelijk heel makkelijk om een plot te maken van gegevens, en daarin een regressielijn te tekenen. Hoe je dat doet dat wordt in dit bericht op R-Bloggers duidelijk uitgelegd.