Wat is een clusteranalyse?

Doel

In een gemeente wonen inwoners met veel verschillende kenmerken. Het in beeld brengen van alle afzonderlijke inwoners in een gemeente is onbegonnen werk. Als je daarentegen alleen naar het gemiddelde van alle inwoners kijkt, verlies je alle informatie over verschillen.

Een mooie tussenweg is om de inwoners in te delen in groepen met mensen die onderling veel op elkaar lijken, maar waarbij tussen de groepen wel duidelijke verschillen zijn. Deze groepen kun je in kaart brengen door middel van een clusteranalyse.

Scroll naar beneden voor meer informatie over de clusteranalyse.

Clusteranalyse

Het doel van een clusteranalyse is het identificeren van groepen waarbij er zoveel mogelijk gelijkenis binnen een groep is (homogeniteit) en zoveel mogelijk verschil tussen groepen (heterogeniteit). Deze groepen noemen we ook wel clusters. Vooraf is het aantal groepen en het type groepen niet bekend. De analyse adviseert de meest optimale indeling.

Een clusteranalyse wordt vaak in een aantal fasen uitgevoerd, waarbij onderzoekers en de gemeente samen de tussenresultaten analyseren om zo tot een relevante indeling van de inwoners te komen.

Voordat een clusteranalyse uitgevoerd kan worden, verzamelen we eerst informatie over de kenmerken van de inwoners in de gemeente. Hieronder omschrijven we welke stappen we doorlopen in een clusteranalyse-onderzoek.

Stap 1: kies de kenmerken

Op welke aspecten ga je de mensen vergelijken? Het is belangrijk dat de informatie over iedereen bekend is en dat de kenmerken relevant zijn voor een gemeente.

Het CBS heeft verschillende databronnen met kenmerken van alle inwoners tot zijn beschikking. Voorbeelden zijn de leeftijd, het geslacht, in wat voor woning men woont, of men samenwoont met anderen, hoeveel kinderen men heeft, of men hoog of laag opgeleid is, of men werkt, en zo ja in welke sector, en of men een auto heeft.

Vervolgens wordt in het onderzoek een selectie gemaakt van bepaalde kenmerken die relevant zijn voor de gemeente. Het aantal kenmerken en de inhoud van de kenmerken kan van invloed zijn op het aantal en het type clusters dat gekozen wordt. Het is daarom belangrijk om deze stap in samenwerking met de gemeente uit te voeren, zodat er maatschappelijk relevante groepen in kaart worden gebracht.

In het huidige onderzoek kijken we naar kenmerken over demografie, werk (sociaal-economisch) en wonen.

Stap 2: maak groepen

Met behulp van de kenmerken kan je elke inwoner uitdrukken als een rij getallen. Of als een stip in een raster. In het simpele voorbeeld kijken we naar twee kenmerken: leeftijd (van links naar rechts) en inkomen (van boven naar beneden). Linksonder zitten de arme jongeren, en rechtsboven de rijke ouderen.

Nu wordt er een willekeurige punt uitgekozen. Dat is de eerste groep. Dan volgen één voor één de andere punten. Zitten ze dichtbij een bestaande groep? Dan gaan ze daarbij. Zitten ze ver weg van bestaande groepen? Dan wordt het een nieuwe groep. Dit gaat net zolang door totdat elke stip een groep heeft.

In dit voorbeeld zijn er twee kenmerken, maar in ons onderzoek kijken we naar de combinatie van alle kenmerken die we in stap 1 hebben geselecteerd.

Stap 3: voeg groepen samen

Aan het einde van stap twee heb je een groot aantal verschillende groepen. Dat zijn er te veel. Die worden nu samengevoegd. Hiervoor berekent een algoritme hoezeer de verschillen binnen de groep groter worden als je twee groepen samenvoegt. In het voorbeeld zijn de groepen 'rijk en iets ouder' en 'arm en niet te oud' het meest verschillend. Die worden dus niet samengevoegd. De groepen 'rijk en iets ouder' en 'oud' lijken het meeste op elkaar. Deze gaan samen. Dit gaat net zolang door totdat er geen groepen meer zijn die erg op elkaar lijken en het aantal groepen niet te groot meer is.

De methode streeft naar zoveel mogelijk gelijkenis binnen de groepen, maar dit is meestal niet voor 100% haalbaar. Wanneer er een groot aantal verschillende kenmerken gebruikt wordt om de clusters te definiëren is het vrijwel onmogelijk dat alle personen in de clusters precies dezelfde kenmerken bezitten. Zo kan er in een cluster waarin de gemene deler onder andere het hebben van een koopwoning is, toch iemand met een huurwoning zitten. Dit komt dan doordat deze persoon op andere kenmerken toch veel gelijkenissen vertoont. Mensen zijn immers niet in te delen in 100% homogene groepen.

Meestal wordt er gekozen voor 7 á 10 clusters. Bij minder clusters zijn de groepen vaak niet onderscheidend genoeg (en krijg je bijvoorbeeld een grote groep van iedereen met een baan), en als je te veel clusters hebt, is het moeilijk om overzicht te houden. Het algoritme adviseert, maar de mens beslist.

Wat zegt het resultaat?

Het resultaat van de clusteranalyse geeft een beeld van de verschillende groepen inwoners die in een gemeente wonen. Waar er vaak gekeken wordt naar een tweedeling als het om inwoners gaat, heeft men nu een genuanceerder beeld. De middengroep, meestal de grootste groep, is ook van belang. Dat midden is juist interessant omdat er ook een (symbolische) scheidslijn zit tussen het midden en de achterblijvers. Het bepalen van die scheidslijn kan inzicht geven in wanneer mensen mogelijk in de problemen komen en hulp nodig hebben.

Ook kan men doelgerichter beleidsvraagstukken benaderen. Zo kun je bijvoorbeeld de uiteindelijke clusters gebruiken om een beter beeld te krijgen van mogelijke woningbehoefte van deze verschillende groepen.

Het dashboard

Dit dashboard is ingedeeld in verschillende tabbladen:
  • Het tabblad 'In het kort' laat zien hoeveel clusters er in een gemeente zijn, hoe groot de clusters zijn en wat de belangrijkste verschillen zijn tussen deze clusters.
  • Op het tabblad 'Kaart' staan verschillende kaarten, zodat je de verdeling van clusters per wijk en buurt kan bekijken.
  • Op de tabbladen 'Kenmerken' kun je de clusters op een groot aantal kenmerken met elkaar vergelijken. Deze kenmerken zijn ingedeeld in drie categorieën: demografie, sociaal-economisch en wonen.
  • Indien voor de gemeente clusteranalyses zijn uitgevoerd voor meerdere jaren, dan kun je op het tabblad 'Trend' meer te weten komen over verschuivingen van clusters in de tijd.
  • Bij 'Begrippen' vind je een beschrijving van alle gebruikte bronnen en begrippen.
  • Onder 'Download' kun je alle data die in dit dashboard verwerkt zijn downloaden.

Klik hier om terug naar boven te gaan.







Loading...
Loading...
Loading...








Waar komen ze vandaan?

Waar gaan ze naar toe?

Bronnen

Begrippen

Afkortingen

Verklaring van tekens

Via onderstaande knoppen kunnen alle datasets, die in het dashboard zijn gebruikt, gedownload worden (in .csv format). Deze bestanden kunnen onder andere geopend worden in Excel.

Instructies ontwikkelen dashboard

CCN

  1. Maak op tijd een afspraak met CCN / Huisstijl en bespreek je dashboard (email: CCN-Logistiek@cbs.nl)
  2. Elk dashboard dat wordt gepubliceerd moet besproken zijn met CCN
  3. Zorg dat minimaal een week voor publicatie je dashboard klaar is om te testen (en maak hiervoor een afspraak met Edwin de Jonge of Roelof Waaijman)

Screenshot en homepage foto

  1. plaats in de workdirectory een foto in png-formaat van het dashboard met als naam screenshot.png (kleine letters) en als afmeting 294px (breedte) bij 196px (hoogte). Dit kan je makkelijk doen met het programma paint (formaat wijzigen). Deze foto wordt in de overzichtspagina getoond.
  2. Maak de foto op de homepage niet te groot (pixels), alles wat geladen moet worden kost tijd. Verklein de foto eventueel middels paint > formaat wijzigen.

R versie op server

  1. Gebruik R 3.5.2
  2. Maak gebruik van de packages die in global.R staan (andere packages zijn niet beschikbaar op de server)
  3. gebruik dashboard_start als startpunt (hierin zijn reeds vele zaken geregeld, zoals huisstijl)
  4. gebruik dashboard sjabloon als voorbeeld voor verschillende visualisaties
  5. let erop dat als je bestanden zijn opgeslagen als UTF-8 (de server draait op linux en linux heeft UTF-8 nodig). Dit voorkomt problemen met speciale leestekens

Vormgeving en nette webpagina's

  1. Plaats content die bij elkaar hoort in dezelfde column()
  2. Maak alleen column()'s in een fluidRow()
  3. Volg de indeling van de voorbeeldpagina's in dit template. Met name de pagina 'Staaf- en kolomgrafieken' geeft een goed voorbeeld van de mogelijkheden:
    1. Begin met een h2() titel in een fluidRow(). (Nb.: de h1() is namelijk al gebruikt voor de titel van het hele dashboard, links bovenin de pagina.)
    2. Daaronder eventueel een wellPanel, met daarin een fluidRow(), en in die row een of meerdere column()'s, met keuzemogelijkheden of selecties voor de gebruiker.
    3. Dan de content in een of meerdere fluidRow()'s, met daarin steeds een of meerdere column()'s.
    4. Geef de column() waar een grafiek in staad de class = 'block' mee, zodat er een wit kader omheen verschijnt.
    5. Heeft een selectiebox voor de gebruiker invloed op alle grafieken op een pagina? Dan moeten ze bovenaan de pagina's in een wellPanel() staan. (Zoals de 'pick one or more cars' selectiebox in de staafgrafiekenpagina.)
    6. Heeft een selectiebox invloed op één specifieke grafiek op de pagina? Zet deze dan in de column(), dus in hetzelfde witte kader als de grafiek. (Zoals 'survived' en 'age' bij de laatste grafiek op de staafgrafiekenpagina.)
    7. Onderaan een download data knop.
  4. Test je dashboard op verschillende schermformaten. Dit kun je doen door je browservenster te verkleinen. Zorg dat alles er altijd goed uit ziet.
  5. Test, indien mogelijk, je dashboard in diverse browsers. Zorg dat alles er altijd goed uit ziet.

Toegankelijkheid

Het CBS moet, net als andere overheidsinstellingen, haar informatie voor iedereen beschikbaar maken (zie https://www.digitoegankelijk.nl/). Een interactief dashboard met visualisaties is helaas niet voor iedereen toegankelijk, maar we zijn verplicht om een goede poging te doen.

Het uitgangspunt is dat alle informatie beschikbaar moet zijn, dus ook voor bijvoorbeeld mensen die niet of niet goed kunnen zien (en hun scherm laten voorlezen), of voor mensen die geen gebruik (kunnen) maken van een muis. Wanneer een bepaalde presentatie van informatie niet voor iedereen toegankelijk is, moeten we een alternatief aanbieden.

Daarnaast kunnen we zorgen voor een zo goed mogelijke structuur van de pagina's, een vormgeving met voldoende contrast, en geen afhankelijkheid van kleuren (i.v.m. kleurenblindheid). Hieronder volgen enkele aanbevelingen.

Structuur en navigatie

  1. Geef navigatie-links een betekenisvolle naam
  2. gebruik een goede structuur van koppen. De titel van het dashboard (linksboven in beeld) is een H1-kop. De titel van een pagina (in dit geval 'Instructies ontwikkelen dashboard' is een H2-kop. Tussenkopjes in de pagina zijn H3-koppen. Daaronder is nog niveau H4 beschikbaar, maar het heeft de voorkeur om niet zo diep te gaan. H5 en H6 zijn niet gestyled.
  3. gebruik duidelijke labels (bijvoorbeeld bij input velden) die beschrijven wat de functie van een element is. Mensen die hun scherm laten voorlezen moeten begrijpen wat iets is. Er staat dus niet iets als 'kies', maar wel 'kies je gemeente'.

Figuren

  1. Figuren zijn natuurlijk lastig voor mensen die ze niet kunnen zien. Daarom moeten we een alternatief aanbieden door de data downloadbaar te maken, en deze in tabelvorm aan te bieden.
  2. Zorg daarom dat elke grafiek de opties hc_export(enabled=TRUE) heeft. Dan kan de gebruiker met het menuutje rechtsboven de data downloaden of raadplegen als tabel.

Tabellen

  1. Zorg dat elke tabel betekenisvolle kolomkoppen bevat (maak gebruik van dataframes of tibbles)

Geo-informatie

  1. Maak een toegankelijke kaart of een toegankelijk alternatief. Zie https://www.digitoegankelijk.nl/onderwerpen/geo-informatie

Vormgeving en kleur

  1. Wees niet afhankelijk van kleuren (men moet figuren kunnen interpreteren zonder kleuren te moeten onderscheiden)
  2. Zorg voor voldoende contrast (gebruik het cbs kleurenpalet, en kies goed of je daar witte of zwarte tekst op zet. Gebruik onderstaande afbeelding als voorbeeld (zet bijv. geen geel op een witte achtergrond, of zwart op donkerblauw).)
  3. Wees niet afhankelijk van zintuigelijke eigenschappen ('klik op de blauwe driehoek rechtsonder')
  4. Overzicht van kleuren en contrasten

Afbeeldingen, iconen, logo's

  1. zorg dat elk figuur of icoon een alternatieve tekst heeft (zodat slechtzienden de tekst kunnen laten oplezen). Dit kan je doen door een alt-attribuut toe te voegen (alt = 'tekst')
  2. Is het decoratief (bijvoorbeeld een foto), geeft dan een lege alt mee (alt = "")
  3. Combineer afbeeldingen en teksten die naar dezelfde content linken
  4. Gebruik je een afbeelding als hyperlink, gebruik dan een alt-tekst die de link beschrijft

Open data

  1. voorzie opendata van een tijdstempel (bv datum download)