Wat is de situatie?
Binnen Vechtstromen zijn een aantal mensen verantwoordelijk voor het beoordelen van alle orders die worden aangemaakt. Afhankelijk van hun functie loopt dit uiteen van een enkele order per jaar tot aan meerdere orders per week.
Naast de frequentie van de orders loopt ook de benodigde tijd per order voor de beoordelaar uiteen. Sommige orders komen ieder jaar terug, andere vallen binnen een uniek project.
Ons doel in dit onderzoek was ontdekken of wij door middel van machine learning konden voorspellen welke orders regulier en welke buitenbeentjes zijn. Hiermee zouden bijvoorbeeld teamleiders geholpen kunnen worden in het vaststellen welke orderregels extra aandacht behoeven.
Het opsporen van buitenbeentjes
De tak van machine learning die probeert te voorspellen of een situatie regulier of uitzonderlijk is, wordt anomaly /outlier detection genoemd. Er zijn verschillende soorten berekeningen (algoritmes) bekend die kunnen voorspellen of een situatie uitzonderlijke is.
Voor dit onderzoek zochten we naar een algoritme dat om kan gaan met data in categorieën, omdat veel informatie in categorieën valt (denk aan bijvoorbeeld leverancier en kostenplaats). Je kunt niet zeggen dat de ene kostenplaats beter is dan de andere, laat staan er mee rekenen. Daarnaast wilden we niet van tevoren bepalen welke orderregels opvallend waren, omdat hiervoor veel tijd en inhoudelijke kennis nodig zouden zijn.
Door bovenstaande criteria kwamen we uit bij isolation forests, waarin gebruik gemaakt wordt van willekeurig aangemaakte beslisbomen. Een normale orderregel zal deze anders doorlopen dan een afwijkende regel.

Schematische uitleg van een isolation forest (IForest). Afbeelding van Sergio Santoyo.

Schoonheid in diversiteit
Omdat elk bedrijfsonderdeel verschillende soorten uitgaven kent, volstond het niet om één model te maken voor het hele waterschap. Dan zouden bijvoorbeeld alle orders van bepaalde bedrijfsonderdelen als uitzonderlijk gemarkeerd worden, terwijl bij andere bedrijfsonderdelen geen enkele order uitzonderlijk zou zijn. Om dit op te lossen hebben we een model gemaakt voor iedere gebruiker die meer dan 20 orders heeft beoordeeld (in de onderzochte periode van 2017 tot 2019).
Klinkt mooi, maar werkt het ook?
Om het model te finetunen en beoordelen hebben we de resultaten voorgelegd aan 2 mensen die beiden 150+ regels beoordeeld hadden in de dataset. Dit waren leerzame sessies die ons de volgende lessen opleverden:
- Verschillende budgethouders maken ieder een eigen afweging voor de beoordeling. Sommige aspecten hiervan zijn moeilijk in een model te vatten.
- Waarschijnlijk lijdt een combinatie van een getraind model en harde regels (bijvoorbeeld alles boven een bepaald bedrag markeren) tot betere resultaten.
- Beoordelaars vinden het lastig te herkennen waarom een regel als uitzondering wordt gemarkeerd.
- Naast de inhoud (is het een normale of een uitzonderlijke regel) is de manier van presenteren van de beoordeling van belang.

Alle boekingscombinaties van één teamleider, waarbij de grootte van een blok aangeeft hoe vaak de combinatie voorkomt. De kleur is gebaseerd op het percentage van regels die als afwijkend werden voorspeld, waarbij geel staat voor 100% afwijkend en blauw voor 0% afwijkend.

Hoe nu verder?
Het is mogelijk om deze voorspellingen te ontsluiten en overzichtelijk weer te geven. Dit zou echter aanpassingen aan, of integratie met ons financiële systeem vereisen. Daarom is het onwaarschijnlijk dat dit project op korte termijn opvolging krijgt. Het financiële systeem wordt namelijk op korte termijn vervangen
Tegelijk laat dit project zien dat het goed mogelijk is om uitzonderingssituaties te isoleren uit een lijst met observaties. Dit is niet alleen bruikbaar binnen het goedkeuringsproces, maar ook voor bijvoorbeeld processen met data validatie. Eigenlijk overal waar het om een behoorlijke hoeveelheid gegevens gaat en je vooral geïnteresseerd bent in anomaliteiten binnen die gegevens.
Dus, als jij een mogelijke toepassing ziet in jouw werk, neem dan contact met ons op!

Ook interessant

Terug naar boven