Waarom onze taal echte zelfdenkende artificiële intelligentie in de weg staat
Vele wetenschappers, zoals professor computerlinguïstiek Walter Daelemans van de Universiteit Antwerpen, zijn van mening dat een begrip van natuurlijke taal het enige is dat ons momenteel nog scheidt van een echte A.I. Wat is de link tussen computertaal en artificiële intelligentie?
frietchinezen en tentsletjes.
Natuurlijke taal staat haaks tegenover de taal die computers spreken. Zij werken met een kunstmatige taal die door de mens is bedacht. De taal die wij spreken is door de jaren heen gegroeid, en is vandaag de dag nog volop in beweging. Denk maar aan al die frietchinezen en tentsletjes.
Wat niet wil zeggen dat wij niet graag via natuurlijke taal willen communiceren met onze computers. In zoekopdrachten gebruiken we normale taal, en we laten computers maar al te graag tekst van het Nederlands naar het Engels vertalen en omgekeerd. En wat dacht je van dictatietechnologie zoals Nuance Dragon NaturallySpeaking, die ook in steeds meer slimme auto’s voorkomt? Om nog maar te zwijgen over onze interacties met Google Now, Cortana en Siri. Om jouw interacties te kunnen omzetten naar betekenisvolle daden, moet een computer erg bedreven zijn in taal.
Niet begrijpen maar berekenen
En daar ligt meteen het probleem. Wanneer we spreken over computers die omgaan met taal, spreken we over verschillende protocollen en algortimes die tegelijkertijd aan het werken zijn onder de motorkap van jouw pc. Als jij ‘A en B met C’ zegt, gaat je computer al die formules afgaan om te kijken wat je bedoelt en wat je verlangt.
Als je computer je uiteindelijk bij eindstation ‘D’ brengt, dan is dat omdat hij je uiting geanalyseerd heeft en tot de conclusie kwam dat je punt D wilde bereiken. Met andere woorden: je computer krijgt je wel op je eindbestemming, maar niet omdat hij je begrijpt. Met brute rekenkracht in plaats van met de hersenen, zou je kunnen zeggen.
Moeilijke dubbelzinnigheid
Een dergelijke A.I. zit er dan ook niet meteen aan te komen, zegt Daelemans. ”Om een begrip van de wereld te hebben, moet je de ambiguïteit van onze talige uitingen kunnen begrijpen,” zegt hij. Ambiguïteit, in het dagelijkse leven ook wel dubbelzinnigheid genoemd, is voor een computer veel moeilijk om te vatten dan dat voor een mens het geval is. Professor Daelemans illustreert:
“Op woordniveau kan sommige ambiguïteit voorkomen, zonder dat we het merken. In de zin ‘Brussel wil vrachtwagens zwaarder belasten’ kan een computer twee mogelijkheden ontdekken. Ofwel wilt Brussel vrachtwagens zwaarder laden, ofwel willen ze meer belastingen heffen. Duidelijk voor ons, maar niet noodzakelijk voor een computer.”
AI-compleet probleem
Maar de uitdagingen voor computers gaan verder dan woorden alleen. Gelijkaardige problemen kunnen zich voordoen bij Lettergrepen, woordafbrekingen en dubbelzinnigheden in zinnen. “Daarom spreken we van een AI-compleet probleem: omdat wereldkennis en algemene intelligentie zo belangrijk zijn, moet eerst het hele probleem van de A.I. worden opgelost. Leren, geheugen, gezond verstand, wereldkennis, probleemoplossend vermogen en ga zo maar verder,” zegt Daelemans.
Onderzoek prioriteit
Dat computerlinguïstiek één van de belangrijkste onderzoeksgebieden is in onze zoektocht naar een echte A.I., moge duidelijk zijn. Maar daarnaast zijn er nog drie zaken die onderzoekers het zweet doen uitbreken. Ten eerste is er de noodzaak aan ‘computergeletterdheid’ van de gebruiker. Het is vandaag nog niet mogelijk zonder enige kennis van computers met zo’n ding om te gaan. Een goed werkende communicatie met een computer, via duidelijke commando’s of via je stem, zou dit probleem kunnen oplossen.
Ten tweede heerst er steeds meer een overdaad aan informatie. Over eender welk onderwerp vind je gegarandeerd een stortvloed aan pagina’s en nieuwsberichten. Het is dan uiterst moeilijk om het kaf van het koren te scheiden. Hoewel Google dit nog niet 100 procent onder de knie heeft, komt de zoekgigant al wel aardig dicht in de buurt. Meer hierover later.
Ten slotte is er de vertaalexplosie. “Denk bijvoorbeeld aan de Europese Unie,” zegt Daelemans, “waar alle teksten beschikbaar moeten zijn in alle talen van elke lidstaat. Met 20 officiële talen, 380 taalparen, 2000 vertalers en een jaarlijkse vertaalkost rond 1 miljard euro
Te veel informatie
Wat alles nog moeilijker maak is de informatieoverdaad op het internet, die elke dag erger wordt. Over elk onderwerp vind je ettelijke webpagina’s, waarbij de auteur zichzelf vaak dé meest relevante en interessante expert ter zake vindt.
“Deze overvloed aan informatie zorgt voor een slecht gebruik ervan,” is Daelemans van mening. Het WWW werd in 2009 reeds geschat op een 25 miljard webpagina’s, een cijfer dat naar verwachting jaarlijks verdubbelt. Een nachtmerrie om in dit kluwen aan pagina’s relevante informatie te vinden. Toch weet Google daar raad mee.
Wat doet Google (of Bing) al?
Om de precisie en het bereik van een zoekmachine zo groot mogelijk te houden, maakt Google gebruik van zijn Pagerank-algoritme. Dit systeem kijkt naar verbindingen tussen webpagina’s om na te gaan hoe betrouwbaar en relevant een webpagina is. Een pagina met een hoge pagerank zal doorgaans verwijzen naar verschillende betrouwbare pagina’s, terwijl die zelf een referentiepagina is voor andere (liefst betrouwbare) pagina’s. Hoe meer verwijzingen en doorverwijzingen, hoe beter.
Vergelijk het met een ijssalon: als veel van je vrienden zeggen dat ze in salon X de beste ijsjes verkopen (referentie), zal je snel geïnteresseerd zijn. Verkoopt dat salon ijs van een heel bekend merk dat populair is (doorverwijzing), dan zal dat ijssalon maar moeilijk teleur kunnen stellen.
Relevantie nagaan
Om na te gaan of een webpagina relevant is, gebruikt Google zogenaamde web spiders of web crawlers. Deze schuimen het internet af en bewaren de tekst van élke pagina op het internet. Hierbij maken ze gebruik van de links die aanwezig zijn op een bepaalde pagina, vandaar dat het gebruik van hyperlinks een webpagina vaak een goede
SEO oplevert.
Elke gevonden pagina wordt geïndexeerd en relevante woorden worden in een index geplaatst. Hierbij worden onbelangrijke woorden zoals lidwoorden weggelaten. Die index geeft voor elk woord aan op welke plaats dat het voorkomt. Wanneer ten slotte een zoekvraag binnenkomt, worden de woorden ervan opgezocht in de index. De resultaten worden dan weergegeven aan de hand van de PageRank.
Google versus Bing
Volgens Daelemans is het antwoord op deze vraag erg simpel: “Een zoekmachine doet zijn werk goed wanneer de teruggevonden documenten relevant zijn voor het oplossen van de zoekvraag. Dit noemen we precisie. Tegelijkertijd willen we ook zeker zijn dat we geen relevante documenten over het hoofd hebben gekeken. Dit noemen we dan weer bereik. Precisie valt makkelijk te meten, maar bereik is andere koek; we kunnen immers onmogelijk nagaan of we wel degelijk alle relevante pagina’s te zien krijgen.”
Volgens Daelemans was er in het verleden wel degelijk een merkbaar verschil in zoekmachines als Google, Bing en Yahoo, maar zijn die vandaag verwaarloosbaar: “Een echt verschil is er niet meer. Google was wel de innovatiever, maar vandaag gebruikt iedereen min of meer dezelfde algoritmes. Kiezen hoeft eigenlijk niet meer.”
Vele wetenschappers, zoals professor computerlinguïstiek Walter Daelemans van de Universiteit Antwerpen, zijn van mening dat een begrip van natuurlijke taal het enige is dat ons momenteel nog scheidt van een echte A.I. Wat is de link tussen computertaal en artificiële intelligentie?
frietchinezen en tentsletjes.
Natuurlijke taal staat haaks tegenover de taal die computers spreken. Zij werken met een kunstmatige taal die door de mens is bedacht. De taal die wij spreken is door de jaren heen gegroeid, en is vandaag de dag nog volop in beweging. Denk maar aan al die frietchinezen en tentsletjes.
Wat niet wil zeggen dat wij niet graag via natuurlijke taal willen communiceren met onze computers. In zoekopdrachten gebruiken we normale taal, en we laten computers maar al te graag tekst van het Nederlands naar het Engels vertalen en omgekeerd. En wat dacht je van dictatietechnologie zoals Nuance Dragon NaturallySpeaking, die ook in steeds meer slimme auto’s voorkomt? Om nog maar te zwijgen over onze interacties met Google Now, Cortana en Siri. Om jouw interacties te kunnen omzetten naar betekenisvolle daden, moet een computer erg bedreven zijn in taal.
Niet begrijpen maar berekenen
En daar ligt meteen het probleem. Wanneer we spreken over computers die omgaan met taal, spreken we over verschillende protocollen en algortimes die tegelijkertijd aan het werken zijn onder de motorkap van jouw pc. Als jij ‘A en B met C’ zegt, gaat je computer al die formules afgaan om te kijken wat je bedoelt en wat je verlangt.
Als je computer je uiteindelijk bij eindstation ‘D’ brengt, dan is dat omdat hij je uiting geanalyseerd heeft en tot de conclusie kwam dat je punt D wilde bereiken. Met andere woorden: je computer krijgt je wel op je eindbestemming, maar niet omdat hij je begrijpt. Met brute rekenkracht in plaats van met de hersenen, zou je kunnen zeggen.
Moeilijke dubbelzinnigheid
Een dergelijke A.I. zit er dan ook niet meteen aan te komen, zegt Daelemans. ”Om een begrip van de wereld te hebben, moet je de ambiguïteit van onze talige uitingen kunnen begrijpen,” zegt hij. Ambiguïteit, in het dagelijkse leven ook wel dubbelzinnigheid genoemd, is voor een computer veel moeilijk om te vatten dan dat voor een mens het geval is. Professor Daelemans illustreert:
“Op woordniveau kan sommige ambiguïteit voorkomen, zonder dat we het merken. In de zin ‘Brussel wil vrachtwagens zwaarder belasten’ kan een computer twee mogelijkheden ontdekken. Ofwel wilt Brussel vrachtwagens zwaarder laden, ofwel willen ze meer belastingen heffen. Duidelijk voor ons, maar niet noodzakelijk voor een computer.”
AI-compleet probleem
Maar de uitdagingen voor computers gaan verder dan woorden alleen. Gelijkaardige problemen kunnen zich voordoen bij Lettergrepen, woordafbrekingen en dubbelzinnigheden in zinnen. “Daarom spreken we van een AI-compleet probleem: omdat wereldkennis en algemene intelligentie zo belangrijk zijn, moet eerst het hele probleem van de A.I. worden opgelost. Leren, geheugen, gezond verstand, wereldkennis, probleemoplossend vermogen en ga zo maar verder,” zegt Daelemans.
Onderzoek prioriteit
Dat computerlinguïstiek één van de belangrijkste onderzoeksgebieden is in onze zoektocht naar een echte A.I., moge duidelijk zijn. Maar daarnaast zijn er nog drie zaken die onderzoekers het zweet doen uitbreken. Ten eerste is er de noodzaak aan ‘computergeletterdheid’ van de gebruiker. Het is vandaag nog niet mogelijk zonder enige kennis van computers met zo’n ding om te gaan. Een goed werkende communicatie met een computer, via duidelijke commando’s of via je stem, zou dit probleem kunnen oplossen.
Ten tweede heerst er steeds meer een overdaad aan informatie. Over eender welk onderwerp vind je gegarandeerd een stortvloed aan pagina’s en nieuwsberichten. Het is dan uiterst moeilijk om het kaf van het koren te scheiden. Hoewel Google dit nog niet 100 procent onder de knie heeft, komt de zoekgigant al wel aardig dicht in de buurt. Meer hierover later.
Ten slotte is er de vertaalexplosie. “Denk bijvoorbeeld aan de Europese Unie,” zegt Daelemans, “waar alle teksten beschikbaar moeten zijn in alle talen van elke lidstaat. Met 20 officiële talen, 380 taalparen, 2000 vertalers en een jaarlijkse vertaalkost rond 1 miljard euro
Te veel informatie
Wat alles nog moeilijker maak is de informatieoverdaad op het internet, die elke dag erger wordt. Over elk onderwerp vind je ettelijke webpagina’s, waarbij de auteur zichzelf vaak dé meest relevante en interessante expert ter zake vindt.
“Deze overvloed aan informatie zorgt voor een slecht gebruik ervan,” is Daelemans van mening. Het WWW werd in 2009 reeds geschat op een 25 miljard webpagina’s, een cijfer dat naar verwachting jaarlijks verdubbelt. Een nachtmerrie om in dit kluwen aan pagina’s relevante informatie te vinden. Toch weet Google daar raad mee.
Wat doet Google (of Bing) al?
Om de precisie en het bereik van een zoekmachine zo groot mogelijk te houden, maakt Google gebruik van zijn Pagerank-algoritme. Dit systeem kijkt naar verbindingen tussen webpagina’s om na te gaan hoe betrouwbaar en relevant een webpagina is. Een pagina met een hoge pagerank zal doorgaans verwijzen naar verschillende betrouwbare pagina’s, terwijl die zelf een referentiepagina is voor andere (liefst betrouwbare) pagina’s. Hoe meer verwijzingen en doorverwijzingen, hoe beter.
Vergelijk het met een ijssalon: als veel van je vrienden zeggen dat ze in salon X de beste ijsjes verkopen (referentie), zal je snel geïnteresseerd zijn. Verkoopt dat salon ijs van een heel bekend merk dat populair is (doorverwijzing), dan zal dat ijssalon maar moeilijk teleur kunnen stellen.
Relevantie nagaan
Om na te gaan of een webpagina relevant is, gebruikt Google zogenaamde web spiders of web crawlers. Deze schuimen het internet af en bewaren de tekst van élke pagina op het internet. Hierbij maken ze gebruik van de links die aanwezig zijn op een bepaalde pagina, vandaar dat het gebruik van hyperlinks een webpagina vaak een goede
SEO oplevert.
Elke gevonden pagina wordt geïndexeerd en relevante woorden worden in een index geplaatst. Hierbij worden onbelangrijke woorden zoals lidwoorden weggelaten. Die index geeft voor elk woord aan op welke plaats dat het voorkomt. Wanneer ten slotte een zoekvraag binnenkomt, worden de woorden ervan opgezocht in de index. De resultaten worden dan weergegeven aan de hand van de PageRank.
Google versus Bing
Volgens Daelemans is het antwoord op deze vraag erg simpel: “Een zoekmachine doet zijn werk goed wanneer de teruggevonden documenten relevant zijn voor het oplossen van de zoekvraag. Dit noemen we precisie. Tegelijkertijd willen we ook zeker zijn dat we geen relevante documenten over het hoofd hebben gekeken. Dit noemen we dan weer bereik. Precisie valt makkelijk te meten, maar bereik is andere koek; we kunnen immers onmogelijk nagaan of we wel degelijk alle relevante pagina’s te zien krijgen.”
Volgens Daelemans was er in het verleden wel degelijk een merkbaar verschil in zoekmachines als Google, Bing en Yahoo, maar zijn die vandaag verwaarloosbaar: “Een echt verschil is er niet meer. Google was wel de innovatiever, maar vandaag gebruikt iedereen min of meer dezelfde algoritmes. Kiezen hoeft eigenlijk niet meer.”