Big data: hoe beginnen?
Big data kan je op twee manieren omschrijven, afhankelijk van hoe je in de IT staat. Ben je een manager, dan is big data een manier om met grote hoeveelheden data om te gaan. Vroeger had je in een bedrijf enkel de transactiegegevens en die zaten allemaal netjes gestructureerd in een ERP-pakket. Maar nu heb je ook data van het internet en een massa ongestructureerde data in het bedrijf zelf. En die data moet je ook gaan verwerken.
Als je een IT’er of programmeur bent, is big data de technologie om een massa gegevens op te slaan en doorzoekbaar te maken zonder ze in een relationele databank te stoppen. Voorbeelden zijn BigTable van Google en Apache Hadoop.
Wat big data nu juist is, dat was een van de eenvoudige kwesties die aan bod kwamen op het Business Meets IT-seminarie over Big Data. Moelijker vragen zijn waarom en hoe je aan big data zou doen. Maar het grootste heikel punt in deze materie is: wie moet big data gaan doen?
De eerste stappen
Big data is geen evidente technologie om mee te starten in je bedrijf. Het is immers even goed een strategisch werkingsmiddel in je bedrijf dat mogelijk heel je manier van werken overhoop gooit. Volgens Michaël Deheneffe van Business & Decisions is big data het uitgelezen middel om je klanten erg persoonlijk te gaan benaderen.
Door massa’s klantengegevens te analyseren kan je promoties persoonlijk afstemmen op je klanten. Je kan ze aanbiedingen doen op het ogenblik dat ze er het meest vatbaar voor zijn. Je kan ze contacteren als je merkt dat er ontevredenheid leeft. Maar bovenal: je weet ook wanneer je ze gerust moet laten.
Big data is volgens Deheneffe een strategisch hulpmiddel dat moet uitgaan van een zakelijke doelstelling. Daarmee is de vraag beantwoord van wie het initiatief moet nemen voor big data: dat is het topmanagement. Pas als er een strategische visie is, kan je aan de implementatie beginnen.
“Start met iets klein en hou een concreet doel voor ogen. Teken daarvoor een verstaanbaar scenario uit en zorg dat je de middelen hebt om je klanten te tracken.
Laat ons bijvoorbeeld naar de reiziger mijnheer Dupont kijken. Een kredietkaartmaatschappij ontdekt dat vijf procent van de klanten die net terug zijn van een reis ingaat op een voorstel om een duurdere kredietkaart te nemen. In normale omstandigheden hapt maar 1 procent van de mensen toe. Die maatschappij kan in de gaten houden van waar mijnheer Dupont incheckt op hun site. Als dat vanuit het buitenland gebeurt en enkele dagen later vanuit België, dan weet de maatschappij dat dit het ideale moment is om hem een marketingmail te sturen”, zegt Michaël Deheneffe.
“Vanuit die kleine bigdataprojecten kan je dan verder gaan, maar je moet wel bij elke stap je waarde aantonen. Als je een echt beslissingssysteem gaat opzetten op basis van big data, start dan met enkele basisregels en voeg gaandeweg meer voorspellende regels toe.
Het technische werk
Alle strategische overpeinzingen ten spijt, vroeg of laat moet iemand zijn handen vuil maken en met technologie aan de slag gaan. En dan heb je een data science team nodig zegt Klaas Bosteels van Massive Media, het bedrijf achter Netlog en datingsite (en dus bigdata-goudmijn) Twoo.
Het geheim achter een goed team gegevenswetenschappers is volgens Bosteels de gediversifieerde samenstelling: “vermijd specialisatie om makkelijk het werk te kunnen verdelen en om te kunnen groeien als dat nodig is. Zorg dat de mensen niet één specialisatie hebben maar die van meerdere markten thuis zijn. Zij gaan meer uit je data kunnen halen.”
Om als datawetenschapper aan de slag te gaan zou je drie vaardigheden moeten combineren: een solide technische achtergrond, een analytische geest die statistiek en machinaal leren begrijpt en je moet slim en creatief zijn in alles wat je doet.
Enige probleem is dat de juiste mensen voor de bigdatateams niet dik gezaaid zijn. Of om het met de woorden te zeggen van Frank Desaer, CIO van de Federale Overheidsdienst Economie: “Het is het beste carrière-advies dat je kan geven. Als je wat sociaal bent en je kent iets van data-analyse, dan heb je het kot voor jou alleen.”
Projecten kiezen
Het bigdatateam moet volgens Klaas Bosteels van Massive Media in zijn functie ook de ruimte krijgen om dingen te doen. Eerst en vooral moet je als bedrijfsafdeling bereid zijn om te falen of om te starten vanuit een buikgevoel. De bedoeling is van nieuwe veelbelovende projecten te vinden om op verder te werken. Maar daarvoor heb je wel de tijd nodig voor experimenteren, ongeveer 20 procent van de werktijd. En oh ja, plezier maken mag. Zolang je maar veel en vroege prototypes maakt.
Als er één omgeving is waar je van verwacht dat er interessante bigdataprojecten mogelijk zijn, is het wel de overheid. Maar er zijn een aantal grote struikelblokken volgens Frank Desaer, CIO van de Federale Overheidsdienst Economie.
Grootste moeilijkheid is dat overheid op een berg gegevens zit die erg privacygevoelig zijn. Daardoor moeten verschillende overheidsinstanties en de privacycommissie hun goedkeuring geven voor er iets mag gebeuren met de data. En dan nog wordt de overheid met een haviksoog in de gaten gehouden. Geen ideale omstandigheid om te beginnen experimenteren.
Een tweede probleem is van de juiste mensen te vinden. “Terwijl de hardwarekosten in elkaar stuiken, gaan de loonkosten per datawetenschapper gestaag omhoog,” zegt Desaer.
Gelukkig heeft de overheid veel data die veel burgers aanbelangen. En daar zit voor hen een grote kans: ze kunnen de big data openen voor burgers die er zelf mee aan de slag gaan. Open data heet dat. Ga maar eens op data.gov.be kijken als je zelf aan de slag wil met overheidsgegevens.
Zijn specialisten wel te vinden?
Je zou je bijna gaan afvragen of die big data specialisten en datawetenschappers überhaupt wel bestaan. Het antwoord is volmondig ja en seminariespreker Kenny Helsens is daar het levende voorbeeld van. Hij is eigenaar van Thinkdata.be en lid van de Bigdata.be-community. Die gemeenschap telt na drie jaar zo’n 288 mensen.
Kenny ging samen met een aantal andere leden aan de slag met de berg data waarop vastgoedwebsite Zimmo.be zit. Hij gaf een inzicht in het werk dat er moet gebeuren voor je een onoverzichtelijk geheel ruwe en ongestructureerde data kan verwerken: je moet een halfgestructureerd datamodel bouwen met de Hadoop-databank HBase en daar statistische analyse op doen met de statistische software R.
In zijn presentatie die je online vindt, kan je te weten komen hoe hij op basis van de ongestructureerde data in huisbeschrijvingen de prijs van het huis kan voorspellen. Als heel zijn uitleg over Hadoop en R je niet veel wijzer maakt, is meteen het belang van goede datawetenschappers duidelijk.
Big data kan je op twee manieren omschrijven, afhankelijk van hoe je in de IT staat. Ben je een manager, dan is big data een manier om met grote hoeveelheden data om te gaan. Vroeger had je in een bedrijf enkel de transactiegegevens en die zaten allemaal netjes gestructureerd in een ERP-pakket. Maar nu heb je ook data van het internet en een massa ongestructureerde data in het bedrijf zelf. En die data moet je ook gaan verwerken.
Als je een IT’er of programmeur bent, is big data de technologie om een massa gegevens op te slaan en doorzoekbaar te maken zonder ze in een relationele databank te stoppen. Voorbeelden zijn BigTable van Google en Apache Hadoop.
Wat big data nu juist is, dat was een van de eenvoudige kwesties die aan bod kwamen op het Business Meets IT-seminarie over Big Data. Moelijker vragen zijn waarom en hoe je aan big data zou doen. Maar het grootste heikel punt in deze materie is: wie moet big data gaan doen?
De eerste stappen
Big data is geen evidente technologie om mee te starten in je bedrijf. Het is immers even goed een strategisch werkingsmiddel in je bedrijf dat mogelijk heel je manier van werken overhoop gooit. Volgens Michaël Deheneffe van Business & Decisions is big data het uitgelezen middel om je klanten erg persoonlijk te gaan benaderen.
Door massa’s klantengegevens te analyseren kan je promoties persoonlijk afstemmen op je klanten. Je kan ze aanbiedingen doen op het ogenblik dat ze er het meest vatbaar voor zijn. Je kan ze contacteren als je merkt dat er ontevredenheid leeft. Maar bovenal: je weet ook wanneer je ze gerust moet laten.
Big data is volgens Deheneffe een strategisch hulpmiddel dat moet uitgaan van een zakelijke doelstelling. Daarmee is de vraag beantwoord van wie het initiatief moet nemen voor big data: dat is het topmanagement. Pas als er een strategische visie is, kan je aan de implementatie beginnen.
“Start met iets klein en hou een concreet doel voor ogen. Teken daarvoor een verstaanbaar scenario uit en zorg dat je de middelen hebt om je klanten te tracken.
Laat ons bijvoorbeeld naar de reiziger mijnheer Dupont kijken. Een kredietkaartmaatschappij ontdekt dat vijf procent van de klanten die net terug zijn van een reis ingaat op een voorstel om een duurdere kredietkaart te nemen. In normale omstandigheden hapt maar 1 procent van de mensen toe. Die maatschappij kan in de gaten houden van waar mijnheer Dupont incheckt op hun site. Als dat vanuit het buitenland gebeurt en enkele dagen later vanuit België, dan weet de maatschappij dat dit het ideale moment is om hem een marketingmail te sturen”, zegt Michaël Deheneffe.
“Vanuit die kleine bigdataprojecten kan je dan verder gaan, maar je moet wel bij elke stap je waarde aantonen. Als je een echt beslissingssysteem gaat opzetten op basis van big data, start dan met enkele basisregels en voeg gaandeweg meer voorspellende regels toe.
Het technische werk
Alle strategische overpeinzingen ten spijt, vroeg of laat moet iemand zijn handen vuil maken en met technologie aan de slag gaan. En dan heb je een data science team nodig zegt Klaas Bosteels van Massive Media, het bedrijf achter Netlog en datingsite (en dus bigdata-goudmijn) Twoo.
Het geheim achter een goed team gegevenswetenschappers is volgens Bosteels de gediversifieerde samenstelling: “vermijd specialisatie om makkelijk het werk te kunnen verdelen en om te kunnen groeien als dat nodig is. Zorg dat de mensen niet één specialisatie hebben maar die van meerdere markten thuis zijn. Zij gaan meer uit je data kunnen halen.”
Om als datawetenschapper aan de slag te gaan zou je drie vaardigheden moeten combineren: een solide technische achtergrond, een analytische geest die statistiek en machinaal leren begrijpt en je moet slim en creatief zijn in alles wat je doet.
Enige probleem is dat de juiste mensen voor de bigdatateams niet dik gezaaid zijn. Of om het met de woorden te zeggen van Frank Desaer, CIO van de Federale Overheidsdienst Economie: “Het is het beste carrière-advies dat je kan geven. Als je wat sociaal bent en je kent iets van data-analyse, dan heb je het kot voor jou alleen.”
Projecten kiezen
Het bigdatateam moet volgens Klaas Bosteels van Massive Media in zijn functie ook de ruimte krijgen om dingen te doen. Eerst en vooral moet je als bedrijfsafdeling bereid zijn om te falen of om te starten vanuit een buikgevoel. De bedoeling is van nieuwe veelbelovende projecten te vinden om op verder te werken. Maar daarvoor heb je wel de tijd nodig voor experimenteren, ongeveer 20 procent van de werktijd. En oh ja, plezier maken mag. Zolang je maar veel en vroege prototypes maakt.
Als er één omgeving is waar je van verwacht dat er interessante bigdataprojecten mogelijk zijn, is het wel de overheid. Maar er zijn een aantal grote struikelblokken volgens Frank Desaer, CIO van de Federale Overheidsdienst Economie.
Grootste moeilijkheid is dat overheid op een berg gegevens zit die erg privacygevoelig zijn. Daardoor moeten verschillende overheidsinstanties en de privacycommissie hun goedkeuring geven voor er iets mag gebeuren met de data. En dan nog wordt de overheid met een haviksoog in de gaten gehouden. Geen ideale omstandigheid om te beginnen experimenteren.
Een tweede probleem is van de juiste mensen te vinden. “Terwijl de hardwarekosten in elkaar stuiken, gaan de loonkosten per datawetenschapper gestaag omhoog,” zegt Desaer.
Gelukkig heeft de overheid veel data die veel burgers aanbelangen. En daar zit voor hen een grote kans: ze kunnen de big data openen voor burgers die er zelf mee aan de slag gaan. Open data heet dat. Ga maar eens op data.gov.be kijken als je zelf aan de slag wil met overheidsgegevens.
Zijn specialisten wel te vinden?
Je zou je bijna gaan afvragen of die big data specialisten en datawetenschappers überhaupt wel bestaan. Het antwoord is volmondig ja en seminariespreker Kenny Helsens is daar het levende voorbeeld van. Hij is eigenaar van Thinkdata.be en lid van de Bigdata.be-community. Die gemeenschap telt na drie jaar zo’n 288 mensen.
Kenny ging samen met een aantal andere leden aan de slag met de berg data waarop vastgoedwebsite Zimmo.be zit. Hij gaf een inzicht in het werk dat er moet gebeuren voor je een onoverzichtelijk geheel ruwe en ongestructureerde data kan verwerken: je moet een halfgestructureerd datamodel bouwen met de Hadoop-databank HBase en daar statistische analyse op doen met de statistische software R.
In zijn presentatie die je online vindt, kan je te weten komen hoe hij op basis van de ongestructureerde data in huisbeschrijvingen de prijs van het huis kan voorspellen. Als heel zijn uitleg over Hadoop en R je niet veel wijzer maakt, is meteen het belang van goede datawetenschappers duidelijk.