Volgt Nederland de trend als het gaat om steeds kortere muziektitels?

In de jaren rond 1960 en 1970 bestond de titel van de meeste muzieknummers uit meer dan één woord. Minder dan 10 procent van de nummers had een titel die bestond uit slechts één woord. Leuke feitjes, uitgezocht door Priceonomics. Hoe ontwikkelt die trend zich in de Nederlandse muziek? Zijn onze Nederlandse artiesten gevoelig voor deze internationale trend? En worden de namen die artiesten aan hun nummers geven steeds korter? In dit artikel gaan we dit uitzoeken. Aan het einde van de analyse vind je tevens een technische uitleg, waarin wordt uitgelegd hoe de gegevens zijn verzameld en waarmee de analyse is gedaan.

Allereerst: we hebben data nodig!

Om tot een antwoord te kunnen komen hebben we eerst data nodig. Ik wil graag per jaar een overzicht van (bekende) Nederlandstalige nummers. Startpunt daarvoor is het zoeken naar hitlijsten. Iedereen kent natuurlijk de Nederlandse Top 40, die iedere week wordt samengesteld en te horen is op Radio 538. Maar helaas (voor dit onderzoekje althans!), die lijst bevat niet enkel Nederlandstalige nummers. Daarvoor moeten we ons wenden tot de wat meer op Nederland gerichte stations, zoals RadioNL en 100%NL. Een zoektochtje leverde wel een aantal hitlijsten op, maar de enige die enigszins gestructureerd (want dat is ook wel een vereiste voor data-analyse) te bekijken is gaat maar terug tot 2012. Dat is de Oranje Top 30 van RadioNL en TVOranje. Misschien bruikbaar, maar laten we nog even verder zoeken.

Er zijn in Nederland een aantal fanatieke websites die allerlei hitlijsten bijhouden. Bijvoorbeeld Top40Web.nl en MichaJans.nl. Op Top40Web.nl vond ik vervolgens jaarlijsten van de Nederlandstalige Top 10, die teruggaan tot 1991. Dat is mooi: want dat levert 24 jaar aan Nederlandstalige hits geclassificeerd naar jaartal op. Jammer genoeg hebben we dan niet de gegevens over een even lange periode als Priceonomics (zij gaan immers terug tot 1960), maar we hebben in elk geval een aanzienlijke hoeveelheid jaren.

Hoe lang zijn de Nederlandse nummers eigenlijk?

Laten we beginnen met de meest globale analyse: hoe is de verdeling van het aantal woorden in een muziektitel in z’n geheel? Dat zie je in onderstaand grafiekje. Het blijkt dus dat 3 woorden het populairst is, gevolgd door nummers bestaande uit vier woorden. De ‘een-woordige’ nummers staan op de derde plaats. In de periode 1991 – 2016 hebben 380 nummers met een titel bestaande uit 1 woord de Nederlandstalige Top 10 weten te behalen.

aantalwoordenpernummer

Worden titels van nummers steeds korter?

Nu we dat weten kunnen we door de tijd heen kijken: is er een trend waarneembaar voor deze één-woordige nummers? Dus: zijn er de laatste jaren meer nummers uitgebracht met een titel van slechts één woord, vergelijken met zo’n 20 jaar geleden? Dat zien we niet terug, kijk maar naar de gegevens hieronder. Je ziet hier hoeveel procent van de nummers ieder jaar een titel had die uit één woord bestond. Dat wisselt door de jaren aardig, met 2015 wel als absoluut hoogtepunt. Maar van een trend lijkt geen sprake, op basis van deze gegevens.

1woordigemuziektitelsperjaar

Eigenlijk lijkt het eerder het omgekeerde: rond 2010 en de jaren daarna ligt het aantal juist lager dan in de periode rond 2000-2005. Maar nu kijken we alleen naar de nummers die een titel hebben van één woord. Wat als we naar alle hits uit deze jaren kijken. Misschien neemt het aantal woorden in muziektitels door de jaren heen wel af? Dat is namelijk ook wat Priceonomics vond: de namen van nummers van The Beatles bestaan uit meer woorden dan de namen van de nummers van Justin Bieber bijvoorbeeld. Dát blijkt ook in de Nederlandse muziek het geval. Kijk maar naar het plaatje hieronder. Daarin is een trend te zien dat muziektitels gemiddeld gezien korter worden. De laatste jaren bestaan de nummers gemiddeld uit ongeveer 3,5 woorden, waar dat in het begin van de jaren 90 een stukje hoger lag. Toen waren er drie jaren met gemiddeld meer dan vier woorden in de titel. Sinds 1996 is zo’n jaar niet meer voorgekomen.

De trendline die je ziet weergeeft een lineaire regressie. N.a.v. een opmerking op Reddit een kleine aanvulling daarop: de R-kwadraat-waarde is 0.4. Dat betekent dat deze analyse aangeeft sprake is van een zwak verband.

lengtevanmuziektitelsperjaar

Kortom: ook in Nederland worden titels van nummers korter

Worden titels van nummers steeds korter in Nederland, net zoals wereldwijd het geval is? Er lijkt inderdaad een verband dat de titels gemiddeld korter worden door de tijd heen, maar bij deze analyse blijft het bij een zwak verband.

Er worden in Nederland niet extreem veel nummers uitgebracht die als titel slechts één woord hebben. Hoewel er best veel populaire nummers in het Nederlands worden uitgebracht met een titel van slechts één woord, zien we in de meest recente jaren geen toename, als we kijken naar de gegevens van de laatste 25 jaar. Het wisselt erg per jaar.

Een stukje techniek

Voor de geïnteresseerden, een klein stukje uitleg hoe de data voorbereid is om te kunnen analyseren. Want, voor de analyse van de gegevens is één ding wel belangrijk. Het moet gestructureerd zijn opgeslagen. Want als je analyses wilt uitvoeren, is één formaat voor je data wel handig. Op Top40Web staat ieder jaar namelijk op een losse pagina. Dat betekent 24 pagina’s, met op iedere pagina alle Nederlandstalige hits van dat jaar.

Met een klein stukje PHP-code kunnen we die 24 pagina’s inladen, en de benodigde informatie scrapen. Dat scrapen (eigenlijk: “het filteren van specifieke informatie uit een webpagina”) heb ik gedaan middels een reguliere expressie. Als je de broncode van de pagina’s op Top40Web bekijkt dan zie je dat alle artiesten en titels in een tabel worden getoond. De kolom uit de tabel die wij willen hebben kunnen we filteren met deze reguliere expressie: #<td><strong>(.*?)</strong></td>#. Deze expressie zorgt ervoor dat we alle tekst krijgen die te vinden is tussen de <td><strong> tags op de pagina. En dat levert alles op wat we willen, in het formaat Nummer – Artiest. De uitkomst van de reguliere expressie moeten we dus nog opknippen in twee stukjes, zodat we de artiest en de titel van het nummer los hebben. Dat kan in PHP met de explode functie. Benieuwd naar de volledige code om de dataset samen te stellen? Deze kun je bekijken op Github  door hier te klikken.

Vervolgens kan het worden opgeslagen in een tabel in een database. We hebben nu een tabel met voor ieder nummer het jaar waarin ‘ie in de charts voorkwam, de naam van de artiest, en een veldje met het aantal woorden (de lengte van de titel van het nummer).  En dan kan de analyse echt beginnen!

Meer dan 20 jaar Nederlandse hits, gestructureerd in een database
Meer dan 20 jaar Nederlandse hits, gestructureerd in een database

De laatste twee grafieken die je ziet zijn gemaakt met RStudio. Met de taal R is het namelijk heel makkelijk om een plot te maken van gegevens, en daarin een regressielijn te tekenen. Hoe je dat doet dat wordt in dit bericht op R-Bloggers duidelijk uitgelegd.

Aan de slag met open data: VerkenDeZorg.nl

Meerdere partijen willen graag inzicht krijgen in de kosten van het Nederlandse zorgsysteem. Eén van de stappen die dat mogelijk maakt is het publiceren van de prijzen die zorgverzekeraars en zorgverleners met elkaar afspreken. Onder meer de Consumentenbond, het TV-programma Kassa en de Autoriteit Consument en Markt vragen daar om. In september van dit jaar was zorgverzekeraar CZ de eerste die de stap zette, en een deel van de gecontracteerde prijzen tussen de verzekeraar en alle Nederlandse ziekenhuizen openbaarde. Het resultaat? Een Excel-document bestaande uit zo’n 85.000 regels.  Dat maakt het voor consumenten nog niet bepaald makkelijk om meer inzicht in die kosten te krijgen.

Aan de slag met de data

Omdat ik wel benieuwd was wat de publicatie van deze data betekent, zette ik een kleine website op: VerkenDeZorg.nl. Het maakt het mogelijk om iets gebruiksvriendelijker en gestructureerder door de dataset heen te gaan. De stappen om daartoe te komen waren vrij eenvoudig: ik zette het Excel-bestand om naar een .csv-bestand, en laadde dat bestand in een database via PhpMyAdmin.

verkendezorg-excel
De brondata: een Excel-document bestaande uit zo’n 85.000 regels

Met een kleine beetje php-code, en door Twitter’s  Bootstrap te gebruiken in combinatie met een gratis Bootstrap-template, was het vervolgens mogelijk om de dataset te doorzoeken op keywords en DBC-codes. Vervolgens wilde ik per behandeling (DBC-code) kunnen kijken hoeveel die zou kosten bij iedere zorgverlener, wat de gemiddelde prijs was voor die behandeling, en in hoeverre zorgverleners van dat gemiddelde afwijken. Onderstaand plaatje geeft een voorbeeld daarvan.

verkendezorg-1

Dat is natuurlijk een leuk inzicht. Een vervolgvraag die naarboven komt is: het Martini Ziekenhuis is hier het duurst. Zijn zij vaker het duurste ziekenhuis? Een ranking per zorgverlener maakt dat inzichtelijk. Die geeft aan: in hoeveel procent van de behandelingen is dit ziekenhuis duurder dan het gemiddelde? Bij het Martini Ziekenhuis gaat dat, op basis van deze dataset, om zo’n 60% van hun behandelingen.

Open data: ‘linked data’ is nóg leuker!

Hoe interessant een open data-set ook is, het wordt vaak nog interessanter als je meerdere datasets aan elkaar kunt koppelen. Nu is het geluk dat behandelingen in de zorg heel gestructureerd worden vastgelegd. Daar worden DBC-codes voor gebruikt. Dus we kunnen de CZ-dataset op basis van DBC-code linken aan andere datasets, die ook informatie op DBC-niveau bevatten. Echter: helaas zijn er niet heel veel datasets in die niche.. Na een uitgebreide zoektocht vond ik twee interessante: per DBC-code het totaal aantal behandelingen in Nederland per jaar, en de maximumprijzen voor een subset van de DBC-codes.

Die eerste dataset maakt het mogelijk om te kijken: hoe vaak is een behandeling vorig jaar uitgevoerd, en hoeveel verschilt de prijs voor die behandeling per ziekenhuis? Dat geeft wel een boeiend inzicht. De DBC-code voor ‘1 of 2 polikliniekbezoeken bij huidkanker of voortekenen daarvan’ is vorig jaar in totaal 122.452 keer voorgekomen. In het Ommelander Ziekenhuis in Groningen betaal je daarvoor 61 euro, terwijl je bij de Mauritsklinieken (in o.a. Nijmegen, Amsterdam en Utrecht) daar 170 euro voor betaalt. Dat is meer dan twee keer zo duur. En zo’n relatief groot verschil voor een behandeling die veel meer dan 100.000 keer op jaarbasis voorkomt, dat is natuurlijk bijzonder.

Maar… wat kun je nu met deze cijfers?

Eigenlijk heel weinig. Het is leuk om te zien dat een zorgverzekeraar het ene ziekenhuis meer betaalt voor een behandeling dan aan een ander ziekenhuis. Maar met de wetenschap dat er op een wat hoger niveau wordt onderhandeld dan op het niveau van individuele behandelingen zegt dat vrij weinig. Het wordt interessant als je weet wat de volumes van de specifieke behandelingen bij ieder ziekenhuis zijn. Dan zou je kunnen aanwijzen met welke ziekenhuizen de verzekeraar over bepaalde behandelingen scherper moet onderhandelen. Die volumecijfers zijn helaas niet openbaar. En ook kunnen we helaas nog geen vergelijkingen maken tussen zorgverzekeraars. CZ is namelijk de enige zorgverzekeraar die tot nu toe een deel van z’n tarieven heeft geopenbaard.

Wil je zelf nog even spelen met de data? Kijk dan op www.verkendezorg.nl!