10 oktober 2019 15:05 2 juli 2018 13:58

AI, machine learning en deep learning: who’s who?

De termen kunstmatige intelligentie, machine learning en deep learning worden vaak door elkaar gebruikt, maar hebben eigenlijk elk hun specifieke betekenis. Wanneer we verwijzen naar deep learning, hebben we het in feite over een specifiek onderdeel van kunstmatige intelligentie.

Kunstmatige intelligentie, machine learning en deep learning vallen eigenlijk te visualiseren als concentrische cirkels. Kunstmatige intelligentie oftewel AI is de grootste cirkel, en was de idee die het eerste tot stand kwam. In die eerste cirkel zit machine learning, dat ietsje later succes kende. In beide cirkels bevindt zich dan deep learning, dat de hele AI-explosie van vandaag aanstuurt.

De eerste kunstmatige intelligentie werd al zo’n 60 jaar geleden in het leven geroepen, in 1956, toen een groep AI-pioniers complexe machines wilden bouwen met dezelfde kenmerken die de menselijke intelligentie ook bezit. Dat is het basisconcept van kunstmatige intelligentie; machines die beschikken over al de zintuigen die mensen ook hebben en die even verfijnd kunnen denken als wij, mensen. De populaire cultuur maakt gretig gebruik van dit concept en beeldt AI afwisselend af als onze vrienden (de bijna ‘schattige’ Star War droids) of als onze vijanden (Terminator).

Kunstmatige intelligentie legt inderdaad een aantal kenmerken van menselijke intelligentie aan de dag, en stoelt daarbij in eerste instantie voornamelijk op machine learning. Machine learning is simpel gezegd het gebruik van algoritmen om data te ontleden, ervan te leren en daarna op basis van die data een voorspellende analyse te maken.

Door middel van grote hoeveelheden data en algoritmen worden machines als het ware ‘getraind’ om de specifieke taak te verrichten die van hen verwacht wordt, uit te voeren. Deep learning gaat dan weer veel verder; die technologie heeft namelijk geen menselijke input meer nodig en is in staat om zelf nieuwe dingen aan te leren. Net daarom is het zowel een gevreesde als een veelbelovende technologie.

Hoe werkt deep learning?

Deep learning maakt gebruik van artificieel neurale netwerken, die de hersenactiviteit in de neuronenlaagjes van de neocortex nabootsen. In tegenstelling tot een computer worden neurale netwerken getraind, en niet geprogrammeerd. En in tegenstelling tot een biologisch brein, waar elke neuron een verbinding kan aangaan met eender welke andere neuron in de buurt, hebben deze artificieel neurale netwerken specifieke vooraf bepaalde lagen, verbindingen en richtingen waarin de data verspreid worden.

Zo doet het eerste laagje neuronen zijn werk, en geeft het de nodige data door aan het tweede laagje. Daarna doet het tweede laagje zijn werk enzoverder, totdat de uiteindelijke laag bereikt is en het definitieve resultaat gegenereerd is. Volgens dat principe leert deep learning software ook patronen te herkennen in digitale voorstellingen van geluid, beelden en andere gegevens.

In de praktijk zou een algoritmetraining op de volgende manier kunnen verlopen; Het softwareprogramma van dienst schetst een set virtuele neuronen en kent aan de verbindingen tussen die neuronen ad random numerieke waarden of ‘gewichten’ toe. Deze gewichten bepalen hoe elke gesimuleerde neuron zal reageren; dat kan ofwel met een mathematische output van 0 of 1 zijn, of met een gedigitaliseerd kenmerk zoals de kleur blauw in een bepaald beeld, of een bepaald energieniveau in de frequentie van een foneem, een apart geluidsdeeltje in gesproken lettergrepen.

Daarna trainen programmeurs een neuraal netwerk op het herkennen van een object of foneem met behulp van gedigitaliseerde versies van beelden waarin dat object verwerkt zit of sound bites waarin dat specifieke foneem te horen valt. Als het netwerk er niet in slaagde een bepaald patroon te herkennen, zal het algoritmen de gewichtjes aanpassen.

Het doel van zo’n training was om ervoor te zorgen dat het neurale netwerk consequent de patronen in spraak zou herkennen als het foneem ‘f’, of het beeld van een kat. Dat is praktisch dezelfde manier waarop een kind leert dat een kat een kat is door de vorm van het hoofdje, het gemiauw, en het feit dat andere mensen ernaar refereren als ‘een kat’.

Het idee is dus dat de binnenkomende informatie in minieme ‘units’ opgebroken wordt en zo in stapjes geanalyseerd wordt. Het eerste binnenkomende signaal, zoals de pixels van een beeldbestand, wordt door de eerste laag neuronen gehaald, die dan op hun beurt kenmerken zoals kleurovergangen, randen en lijnen distilleren.

In de eerste fase van deep learning was de technologie nog erg rudimentair en daarom werd er ook nog niet zoveel aandacht aan besteed. In het midden van de jaren 80 kende deep learning echter een revival door onder andere Geoffrey Hinton en zijn mede-onderzoekers. Zijn onderzoek toonde aan dat neurale netwerken in plaats van 2 of 3 laagjes meerdere neuronenlaagjes nodig hadden om echt baanbrekend te zijn.

Verregaande AI-technologieën zoals complexe stem- of beeldherkenning vereisten op dat moment spijtig genoeg nog teveel computerkracht dan toen voorhanden was. Dat veranderde ergens midden vorig decennium, toen krachtigere processoren en big data een belangrijke katalysator waren voor de exponentiële toename aan deep learning.

Deep learning is booming

Hoewel deep learning een relatief nieuwe technologie lijkt te zijn, werden de eerste stappen naar DeepMind en schakende robots al in de jaren veertig gezet, Warren McCulloch en Walter Pitts een rekenkundig model voor neurale netwerken creëerden.

Een vijftiental jaar later, in 1958, creëerde Frank Rosenblatt het ‘perceptron’, een algoritme dat toegespitst was op patroonherkenning en dat was gebaseerd op een redelijk simpel model van twee lagen van neurale computernetwerken waarbij gebruik werd gemaakt van optellen en aftrekken.

Ook hij stelde toen al voor dat er meerdere lagen zouden worden gebruikt, en was daarmee ver vooruit op zijn tijd. Uiteindelijk stelde in 1980 de onderzoeker Kunihiko Fukushima het Neoconitron voor, een hiërarchisch gestructureerd artficieel neuraal netwerk dat werd gebruikt om handschriften te herkennen.

De grootste doorbraak in deep learning van de vorige eeuw vond zonder twijfel in 1986 plaats, toen Geoffrey Hinton en zijn medeonderzoekers aantoonden dat een neuraal netwerk uit meer dan twee of drie neuronenlaagjes moest bestaan, om zo de algoritmen efficiënter te trainen. Meer neuronenlaagjes vereisen ook een grotere computerkracht, die midden jaren ’80 nog niet voorhanden was. Hinton zou 26 jaar moeten wachten om zijn bevindingen ook effectief te kunnen waarmaken.

Rond 2006 begint de term “Deep learning” steeds meer in zwang te raken nadat de paper van Geoffrey Hinton en Ruslan Salakhutinov aantoont hoe een meerlagig neuraal netwerk, laagje per laagje vooraf kan getraind worden. Daarbij leert de eerste laag neuronen de rudimentaire kenmerken van het te bestuderen object kennen; zoals de rand in een bepaald beeld of een minieme spraakunit.

Wanneer de eerste laag met genoeg accuraatheid de kenmerken van het te bestuderen object kan herkennen, worden die data doorgegeven aan het volgende laagje, dat zichzelf dan traint om complexere onderdeeltjes te herkennen, zoals de hoek van een beeld of een combinatie van spraakunits. Zo wordt dat proces steeds herhaald tot het systeem geheel autonoom en betrouwbaar fonemen of objecten kan herkennen.

Drie jaar later wordt aangetoond dat met een dataset die uitgebreid genoeg is, neurale netwerken niet vooraf hoeven getraind te worden en dat het aantal fouten daarmee ook aanzienlijk vermindert. Tegen 2012 bereiken algoritmen voor patroonherkenning een bijna menselijk niveau van perceptie.

In 2014 koopt Google de Britse kunstmatige intelligentiestartup Deepmind voor 400 miljoen pond. Een jaar later begint Facebook deep learning toe te passen op foto’s die via haar platform gedeeld worden. De toepassing heet DeepFace en tagt automatisch Facebookgebruikers in foto’s.

Algoritmen voeren daarbij superieure gezichtsherkenning uit die aangestuurd worden door diepe netwerken die daarvoor maar liefst 120 miljoen parameters in acht nemen. In 2016 verslaat het AlphaGo algoritme van Google’s DeepMind de professionele bordspeler Lee Sedol in het complexe bordspel Go en verbaast daarmee vriend en vijand.

Hoewel deep learning in de verste verte geen nieuwe technologie is, valt het op dat de successen omtrent de technologie zichzelf pas na de eeuwwisseling veel sneller beginnen opvolgen. Volgens Bernard Marr, expert in Big Data en Analytics, heeft dat te maken met een aantal factoren zoals grotere datasets, krachtigere processoren en gesofisticeerdere algoritmen.

Max Welling, hoogleraar machine learning aan de Universiteit van Amsterdam beaamt dat grotere datasets inderdaad een belangrijke katalysator waren voor geavanceerdere artificiële neurale netwerken. Deep learningnetwerken hebben nu eenmaal een vloedgolf aan data nodig als trainingsmateriaal. “Miljoenen foto’s of tekstpagina’s, of duizenden uren gesproken woord in alle talen. Die waren tien jaar geleden niet beschikbaar, nu pluk je ze zomaar van internet.”

Krachtigere processoren hebben ook een sterke invloed gehad op de AI-doorbraak van 2006. Een van de redenen waarom Hinton zijn bevindingen van midden jaren ’80 bijna 30 jaar later pas kon toepassen had te maken met het toenmalige gebrek aan computerkracht en sterke processoren. De exponentiële toename aan deep learning is er dan in feite pas gekomen met de algehele verspreiding van GPU-processoren.

Om de algoritmen van machine learning en deep learning sneller te kunnen trainen, moeten die namelijk allemaal tegelijkertijd getraind worden. Daarvoor waren sterkere processoren nodig, en voldeden gewone CPU’s niet meer. Typische CPU’s zijn namelijk ontworpen om berekeningen in sequentiële volgorde uit te voeren, wat ervoor zorgt dat elke mathematische berekening op de voorgaande moet wachten voor die van start kan gaan. Een CPU met meerdere cores kan hier en daar de berekeningen versnellen, maar is nog steeds geen ideaal alternatief.

Een GPU versnelt danig het trainingsproces van de algoritmen. Dat is niet verwonderlijk, wanneer je je bedenkt dat een GPU-processor bestaat uit duizenden cores die miljoen berekeningen tegelijkertijd kunnen uitvoeren. Dat er een sterke link is tussen GPU-processoren en onderzoek naar kunstmatige intelligentie mag duidelijk zijn.

Recent nog schonk Jensen Huang, CEO van Nvidia, 20 van haar nieuwste GPU-kaarten met Tensor-core aan AI-researchers die zich toespitsen op robotica en autonoom rijden. Een fijn cadeautje, als je je bedenkt dat de kaarten per stuk 3.000 dollar waard zijn.

Toepassingen vandaag de dag

Deep learning is vandaag de dag al lang geen niche-technologie meer en wordt steeds vaker toegepast in allerlei mogelijke soorten software. Zo is gezichtsherkenning een van de meest populaire en wijd verspreide deep learningtoepassingen.

Mensen hebben altijd al gezichten van elkaar kunnen onderscheiden, maar bij computers lag dat net iets anders. Elk menselijk gezicht heeft ongeveer zo’n 80 verschillende herkenningspunten. Die hebben mensen niet nodig om gezichten in een mensenmassa te herkennen, maar zijn voor algoritmen een welkom hulpmiddel. De onderlinge relatie van die herkenningspunten zorgt voor een aantal gezichtskenmerken, zoals de afstand tussen de ogen, de breedte van de neus, de vorm van de jukbeenderen en de lengte van de kaaklijn.

Aan de hand van al die parameters wordt een soort van ‘kaart ‘van je gezicht gemaakt. Die wordt dan getoetst aan de data die voorhanden zijn. Zo worden er in de beeldgallerij van je smartphone automatisch submapjes aanmaakt voor ‘andere gezichten’, en pikt Facebook praktisch foutloos de persoon die je in je foto wil taggen uit je vriendenbestand. De FBI heeft dan weer een gigantisch ‘gezichtenbestand’, waartegen die je gezicht kan toetsen om te zien of de herkenningspunten overeenkomen.

Niet alleen gezichtsherkenning, maar ook spraakherkenning is een technologie die vandaag niet meer weg te denken valt uit onze moderne maatschappij en die stoelt op deep learning. Ook bij spraakherkenning wordt er gebruik gemaakt van detectie, ‘mapping’ en een controlefase, maar zijn de te analyseren parameters geen gezichtsherkenningspunten, maar klankdeeltjes of fonemen.

Vandaag de dag spreken we meer dan ooit met spraakassistenten zoals Siri, Bixby of Alexa. Tussen 2013 en 2015 verhoogde Google de accuraatheid van haar ‘Google Assistant’ van 80% tot een indrukwekkende 90%. Spraakherkenning wordt zelfs zo makkelijk in gebruik dat experts voorspellen dat tegen 2020 ongeveer 50% van alle zoekopdrachten gewoon ingesproken zullen worden.

Het mag duidelijk zijn: deep learning strekt zich uit over alle domeinen van ons leven; het geeft ons accuratere filmaanbevelingen, en zorgt voor een meer gestructureerde mailbox. Ook in de gezondheidszorg boekt deep learning grote successen, van geavanceerde tumorenscans tot robotjes die bijspringen in de zorgsector.

Die successen mogen ons echter niet laten vergeten dat algoritmen afhankelijk zijn van de data die ze gevoed worden, en dus in feite erg subjectief kunnen zijn. Ook de militaire toepassingen van AI baren zorgen, want wie moet er verantwoordelijk gesteld worden wanneer een kunstmatige intelligentie verkeerdelijk een doelwit uitschakelt?