Hoe Google artificiële intelligenties in het gareel wil houden
Google DeepMind en OpenAI, twee experts op het vlak van artificiële intelligentie, hebben een nieuwe feedbackmethode bedacht voor het trainen van robots. Wanneer je een doelstelling codeert in de software kan deze verkeerd geïnterpreteerd worden door de AI, met gevaarlijke gevolgen. DeepMind en OpenAI gebruiken daarom menselijke feedback om hun artificiële intelligentie in het gareel te houden.
Salto
In een paper tonen DeepMind en OpenAI hoe ze een gesimuleerde robot leren om een salto te maken. In het begin maakt de robot willekeurige bewegingen. Een mens moet echter telkens kiezen welke beweging hij het beste vindt, waardoor de AI stilletjes aan leert om een salto te maken. In totaal moest de menselijke evaluator 900 keer feedback geven om van de AI een ware acrobaat te maken. Het hele trainingsproces nam minder dan een uur in beslag.
Valsspelen
De AI-experts pasten hun opgedane kennis eveneens toe op spelletjes zoals pong. Meestal leerde de AI hoe het de games correct moet spelen, maar ook nu is de trainingstechniek niet feilloos. Bij een opdracht waarin een robothand een balletje moet vastnemen, leert de AI vals te spelen. De menselijke evaluatoren schatten de diepte immers verkeerd in, waardoor ze denken dat de robot het balletje vastheeft en dus positieve feedback verdient. In werkelijkheid bevindt de hand zich tussen de camera en de bal. Met behulp van lijnen voorkomt Google dat de robot in de toekomst kan valsspelen.
“Onze algoritmes presteren slechts zo goed als de intuïtie van hun menselijke evaluatoren over wat er correct uitziet. Indien de evaluator niet goed begrijpt wat de taak inhoudt, dan geeft hij feedback die niet helpt. Bovendien kan ons systeem in sommige situaties ervoor zorgen dat de robot de evaluatoren leert te bedotten,” schrijft OpenAI.
Toekomst
Google en OpenAI hopen dat in de toekomst minder menselijke feedback nodig is. Bovendien kan er eveneens gewerkt worden aan menselijke feedback die meer informatie bevat, zoals taal. In plaats van simpelweg aan te geven welke robot zich het best van zijn taak kwijt, kan een evaluator de AI uitleggen waarom het zijn taak niet correct uitvoert.
Google DeepMind en OpenAI, twee experts op het vlak van artificiële intelligentie, hebben een nieuwe feedbackmethode bedacht voor het trainen van robots. Wanneer je een doelstelling codeert in de software kan deze verkeerd geïnterpreteerd worden door de AI, met gevaarlijke gevolgen. DeepMind en OpenAI gebruiken daarom menselijke feedback om hun artificiële intelligentie in het gareel te houden.
Salto
In een paper tonen DeepMind en OpenAI hoe ze een gesimuleerde robot leren om een salto te maken. In het begin maakt de robot willekeurige bewegingen. Een mens moet echter telkens kiezen welke beweging hij het beste vindt, waardoor de AI stilletjes aan leert om een salto te maken. In totaal moest de menselijke evaluator 900 keer feedback geven om van de AI een ware acrobaat te maken. Het hele trainingsproces nam minder dan een uur in beslag.
Valsspelen
De AI-experts pasten hun opgedane kennis eveneens toe op spelletjes zoals pong. Meestal leerde de AI hoe het de games correct moet spelen, maar ook nu is de trainingstechniek niet feilloos. Bij een opdracht waarin een robothand een balletje moet vastnemen, leert de AI vals te spelen. De menselijke evaluatoren schatten de diepte immers verkeerd in, waardoor ze denken dat de robot het balletje vastheeft en dus positieve feedback verdient. In werkelijkheid bevindt de hand zich tussen de camera en de bal. Met behulp van lijnen voorkomt Google dat de robot in de toekomst kan valsspelen.
“Onze algoritmes presteren slechts zo goed als de intuïtie van hun menselijke evaluatoren over wat er correct uitziet. Indien de evaluator niet goed begrijpt wat de taak inhoudt, dan geeft hij feedback die niet helpt. Bovendien kan ons systeem in sommige situaties ervoor zorgen dat de robot de evaluatoren leert te bedotten,” schrijft OpenAI.
Toekomst
Google en OpenAI hopen dat in de toekomst minder menselijke feedback nodig is. Bovendien kan er eveneens gewerkt worden aan menselijke feedback die meer informatie bevat, zoals taal. In plaats van simpelweg aan te geven welke robot zich het best van zijn taak kwijt, kan een evaluator de AI uitleggen waarom het zijn taak niet correct uitvoert.