Een paar weken geleden kreeg ik dit sms’je van mijn mobiele netwerkprovider: “Hoi! Even een update: je zit nu op 80% van je 4 GB bundel. Als je bundel straks op is, wordt je internet traag in Nederland en EU... Maar wel gratis. Wil je liever snel blijven internetten? Check dan www….”. Het was de 30e dag van de maand. Wat betekent dit, waarom ontvang ik dit vandaag en moet ik actie ondernemen? Reden voor paniek? De belangrijkste informatie en actiegerichte inzichten ontbreken. Herkenbaar? Mooie aanleiding om het onderwerp gebruikerservaring, ofwel customer experience, in combinatie met de toepassing van big data en data-analyse, te adresseren.
Goed, eerst de feiten maar eens op een rij om mijn vragen te kunnen beantwoorden. Want na dit bericht wil ik weten hoeveel dagen ik nog over heb (1), of ik het met mijn bundel ga redden tot het einde van de periode (2) of er wellicht een abnormale stijging in gebruik is, en zo ja waar dat dan door komt (3). Pas dan kan ik inschatten of een andere bundel beter past, of niet (4).
Dus allereerst data verzamelen, indexeren, schoonmaken en gereedmaken voor analyse. Dit heb ik gedaan in Dataiku, een machine learning platform. De data bestaat uit mijn gebruiksgegevens over een periode van 3 maanden. Ik heb verschillende recepten gebruikt om de data voor te bereiden en te analyseren. Met behulp van Dataiku kan ik het visualiseren (zie onderstaande afbeelding). Daarnaast kijk ik naar de wijze waarop de datasets zijn gedistribueerd. Dit geeft een beeld van de inhoud en hoe dit relateert aan de populatie.
Afbeelding 1: De originele dataset maak ik eerst “schoon”
Het was dus bijna het einde van de maand. Nu hou ik me normaliter niet zo bezig met mijn abonnement dus ik weet ook niet tot welke datum een periode loopt. Is dat gewoon per maand, per 4 weken of vanaf het afsluiten van het contract? Fijn als de provider dat meteen duidelijk maakt. Wat blijkt; ik had nog 1 dag te gaan. Dat scheelt... 20% van 4GB is 800MB in een dag. Het zou anders zijn geweest als het de eerste week van de periode was.
De provider heeft ‘gedetailleerde’ informatie over mijn verbruik en kan in principe, op basis van mijn gemiddelde, prima berekenen of ik het met mijn bundel ga redden tot het einde van de periode, of niet. Vroeger, in het pre-datadriven tijdperk, moest ik het verbruik omrekenen van geld naar MB’s of mijn gegevens invoeren bij een bekende vergelijkingswebsite. Bij het verlengen van een abonnement hadden medewerkers moeite en aardig wat werk om het e.e.a. te berekenen.
Voor dit voorbeeld ga ik ervan uit dat ik een burn-rate heb tussen de 3% en 4% per dag. Met nog 20% tegoed over, en éen éenendertigste van de tijd, is de kans niet zo heel groot dat ik er overheen ga. Ik ben iets meer gerustgesteld. De voorspelling die ik maak met een prediction algoritme, machine learning dus, aan de hand van onderstaande modellen, is dat ik op de laatste drie dagen gemiddeld 104 MB gebruik. Dat valt binnen de 3-4% bandbreedte die ik van tevoren in mijn hypothese had staan.
Waarom biedt mijn provider mij niet de datagedreven inzichten die ik nodig heb? Als ik weet of ik het ga halen dan hoef ik mij minder zorgen te maken. Het gaat hier tenslotte over 1 van de grote drie providers.
Ik train een model met een regressie algoritme en gebruik daarna een scoring algoritme om te voorspellen.
Afbeelding 2: de visuele flow van een regressie en scoring algoritme.
Afbeelding 3: De uitkomst kan mooi worden weergegeven in een column chart.
Nu kan het zomaar zo zijn dat mijn datagebruik ineens enorm is toegenomen. Dit is een zogenaamde anomalie in het verbruik. De provider kan dit zien en mij hierop attenderen. Met dit inzicht kan ik kijken welke app er opeens meer gebruikt of dat ik misschien met mijn vriendin aan het winkelen ben geweest en veel moest wachten en een paar levels online Mario Kart uitspeeld heb. Dit doe ik in Dataiku door de data te clusteren met een auto-ml machine learning recept. Ik verdeel de datasets ook in een set van 2 maanden en de laatste maand.
Afbeelding 4: De beschikbare standaard machine learning opties.
Afbeelding 5: De visuele flow laat goed zien dat het twee sets worden met hun eigen machine learning model.
Er zijn een klein aantal anomalieën in het verbruik. Kijkend in de datasets zie ik dat dit per dag maximaal 607 MB is. Dit is wel bijna 4x de dagelijkse burn-rate. Gelukkig zijn er ook dagen met veel minder verbruik om dit te compenseren. Nu valt deze anomalie ook binnen de 20% die over is met nog 1 dag te gaan.
Afbeelding 6: Donut charts met het aantal anomalieën.
Kijkend in mijn agenda zie ik dat, op de dagen waarop de anomalieën plaatsvonden, ik activiteiten had waar ik mijn telefoon meer gebruikte. Dit was onder andere als mobiele hotspot.
Met bovenstaande informatie kan ik, én de provider ook trouwens, veel meer waarde halen uit mijn abonnement. De provider kan mij diensten en upgrades aanbieden om de maand beter door te komen. De data-analyse hierachter kan mij helpen om beter, geruster en veiliger met mijn telefoon om te gaan. Helaas zijn ook hier de voorstellen voor een nieuw contract niet toereikend en prikkelend om daarop actie te ondernemen. Dit is een gemiste kans voor de provider.
De kleine dataset laat in ieder geval zien dat mijn provider meer inzicht kan bieden om mijn ervaring te verbeteren en meer uit mijn abonnement te halen. Zonder mij de stuipen op het lijf te jagen. De gebruikte technieken en algoritmes zijn enkel ter illustratie maar laten de potentie zien van datagedreven werken om de klantervaring te verbeteren, churn-rate te verlagen en processen te optimaliseren. Dit voorbeeld geldt overigens niet alleen voor telecomproviders en kan worden toegepast binnen alle particulier-, zakelijk- en financieel dienstverleners. Meer weten? Ik ga de data uitdaging graag met je aan!
Hieronder nog de gehele flow met alle recepten en stappen en het uiteindelijke dashboard.
Afbeelding 7: De gehele flow in Dataiku
Afbeelding 8: Het uiteindelijke dashboard
Deep Package Inspection (DPI) is een heet hangijzer geweest in het afgelopen decennium. Hiermee kunnen telecomaanbieders het netwerkverkeer bekijken en zien welke sites en apps door klanten gebruikt en bezocht worden. De Open Internet Verordening (OIV) uit 2015, waarin het netneutraliteitsbeginsel is vastgelegd, is hierin een belangrijk punt. In het hypothetische geval dat de provider mijn gebruik kan analyseren en hierin aanbevelingen en aanbiedingen doen zou een volgende stap zijn. Daarnaast zou het voor de telecomaanbieder nuttig kunnen zijn voor netwerksegmentatie/slicing voor verschillende doeleinden. Zeker met de komst van 5G en Internet Of Things (IoT). In de OIV is DPI is uitsluitend toegestaan voor security doeleinden tenzij met expliciete toestemming.
Disclaimer: De gebruikte dataset is veel te klein om echt nuttige dingen te zeggen en te voorspellen. De technieken en algoritmes zijn enkel ter illustratie. De validatie van de machine learning modellen liet ook zien dat het veel beter kan.
Rick is Data Consultant en Product Owner bij UMBRiO en verantwoordelijk voor onze online en on-demand workshops. Als Analytics Translator en Splunk consultant helpt hij organisaties bij het ontsluiten van data uit bedrijfsapplicaties en vertaalt deze naar waardevolle informatie voor IT en business besluitvorming. Daarnaast zorgt hij voor de adoptie van datagedrevenheid door cultuurverandering tot stand te brengen. Samen met de collega’s van UMBRiO zorgt hij er ervoor dat organisaties data-driven kunnen werken. Rick gelooft in een inclusieve samenleving die de wereld elke dag een beetje mooier, houdbaar en toekomstbestendig maakt.