
Probleem
Judith Kloosterman en Ivor Rohof hebben bij de Digital Dojo aangeklopt met een datavraagstuk. "Wat ons betreft zouden we wel wat meer willen weten over de slibvolumeindex (SVI) van RWZI’s. Het betreft de bezinkbaarheid van het slib in de nabezinktanks. We zien nog wel eens dat deze in een kalenderjaar een piek hebben. Bij een piek is er kans op slibuitspoeling in het oppervlaktewater en dat moeten we voorkomen. We hebben wel vermoedens waar deze pieken vandaan kunnen komen, maar willen graag eens zien of de data deze vermoedens bevestigt en/of dat er nog andere verbanden zijn aan te tonen."
Oplossingsrichting
Om antwoorden te vinden voor het datavraagstuk is datamining ingezet. Datamining (gegevensdelving, datadelving) is het gericht zoeken naar (statistische) verbanden tussen verschillende gegevensverzamelingen. De naam komt voort uit de overeenkomsten tussen het zoeken naar statistische verbanden en het graven (mining) naar iets waardevols in een grote berg gegevens (big data).
" Voor ons was het een eerste kennismaking met ‘big data’. In een prettige aftrapbijeenkomst hebben we de probleemstelling uitgelegd en is gezamenlijk beoordeeld welke data nodig is en waar deze te vinden is. In een aantal tussentijdse sessies werd de voortgang teruggekoppeld en gecheckt of juiste koers nog bewandeld werd."
Werkwijze
Scopebepaling: RWZI Oldenzaal
Voor er naar verbanden tussen data gezocht kan worden moet er eerst data verzameld en op orde gebracht worden. Hier gaat volgens de regel 80% van de tijd in zitten en dat was in deze case waarschijnlijk nog meer. De data werd namelijk aangeleverd in verschillende structuren en op verschillend detailniveau (diverse CSV-bestanden en Excel-bestanden met verschillende opmaak). Het werken met deze data zou zorgen voor een bewerkelijke en niet-herbruikbare oplossing. Om deze reden hebben we naar een alternatief gezocht en hebben we uiteindelijk met de Business Intelligence tool Business Objects de data kunnen ontsluiten uit ons zuiveringsinformatiesysteem Z-Info.
We kwamen er achter dat er op veel punten data ontbrak en er ook redelijk wat zogenaamde outliers waren (sterk van de overige data afwijkende waarden) . Statistische modellen kunnen hier niet of slecht mee om gaan. Om dit te verbeteren hebben we het open source data science platform Knime gebruikt. Hierin hebben we o.a. parameters met te weinig meetwaarden weggelaten, outliers eruit gefilterd en via interpolatie waarden van parameters aangevuld.

De in Knime doorlopen Workflow.
Na het op orde brengen van de data hebben we de data geanalyseerd met behulp van Business Objects, Knime en nog een business intelligence tool Tableau. Deze bieden elk hun eigen mogelijkheden op het gebied van statistiek en het toepassen van modellen.

Correlatiemodellen in Tableau.
Resultaten
Met een eindpresentatie hebben we de gegevens opgeleverd aan onze Judith en Ivor. Er zijn in de data verschillende significante verbanden gevonden tussen de SVI en enkele andere parameters. Hiernaast was er ook jaarlijks een opmerkelijke piek in de SVI te zien tijdens Koninginne- en Koningsdag.

Tijdreeks Koninginnedag in Tableau.
Naast een eenmalige analyse hebben we ook een rapportage in Business Objects opgeleverd waarmee Judith en Ivor voortaan zelf analyses uit kunnen voeren zonder de tijdrovende en foutgevoelige stappen allemaal in Excel te moeten doen.
" De uitkomst van het onderzoek is in een heldere presentatie weergegeven. De uitkomsten kwamen overeen met het beeld dat we hadden m.b.t. de schommelingen in de SVI. We denken dat big data ons in de toekomst zeker kan gaan helpen in het zuiveringsproces. De aanpak van het digital dojo team is prettig. een aftrapbijeenkomst om de probleemstelling scherp te krijgen, tussentijdse terugkoppeling om af te stemmen of men op de goede weg zit en aanvullende vragen. Afsluitend wordt met een heldere presentatie de uitkomsten gedeeld. Een enthousiast team waar we zeker nog gebruik van gaan maken."
Conclusie
Ondanks significante resultaten in de data betekent dit niet dat de verbanden ook echt iets betekenen in de praktijk. Statistisch gezien kan er bijvoorbeeld een verband zijn tussen het aantal ooievaars in de lucht en de grondtemperatuur in de nabezinktanks, maar in de praktijk heeft dit echter niets met elkaar te maken. Zo geldt het ook in deze case. De eindconclusie of de verbanden in de data ook echt iets te betekenen hebben moeten Judith en Ivor dus zelf maken.
Hetzelfde geldt voor de pieken in de SVI tijdens Koninginne- en Koningsdag. Dit kan te maken hebben met alcohol, maar zou ook een andere reden kunnen hebben. In dit geval kan er nu wel gericht naar verklaringen gezocht worden.
Auteur: Dennie Kamp