Hoe neuraal netwerk Google Translate verbetert
Wie al eens een bericht heeft ontvangen dat volledig via Google Translate is vertaald, weet dat de populaire tool van Google de bal al eens durft mis te slaan. Slechts één woord per keer vertalen, zorgt daarentegen wel voor goede resultaten. Google heeft een nieuw algoritme uitgewerkt dat ervoor zorgt dat ook volledige zinnen en paragrafen een correct resultaat geven.
Neural Machine Translation
Vooralsnog maakte Google Translate gebruik van het zogenaamde ‘Phrase-Based Machine Translation’ (PBMT). Bij deze techniek wordt een tekst in woorden en zinsdelen opgesplitst. Deze delen worden hierna afzonderlijk verwerkt en vertaald, wat regelmatig tot vreemde resultaten leidt.
Om het tienjarige bestaan van Google Translate te vieren, heeft het bedrijf een nieuwe vertalingstechniek aangekondigd, namelijk ‘Google Neural Machine Translation’ (GNMT). In tegenstelling tot bij PBMT wordt er bij GNMT de volledige input als een geheel aanzien. Bij het vertalen van een woord in een zin zal de techniek rekening houden met de omringende woorden. Dit zorgt voor een vermindering van fouten met maar liefst 55 tot 85 procent.
Hoe donkerder een lijn, hoe meer rekening er wordt gehouden met de vector die het verbindt.
Encoders en decoders
In een paper doen onderzoekers van Google hun bevindingen uit de doeken. “Ons model bestaat uit een deep long short-term memory network met acht encoder- en acht decoderlagen, dat gebruik maakt van connecties tussen de decoder en encoder,” wordt uitgelegd in de paper.
Bij het vertalen van een Chinese zin naar het Engels, worden de woorden in de eerste plaats geëncodeerd naar een lijst van vectoren. Elke vector staat voor de betekenis van alle woorden die tot dan toe zijn gelezen. Eenmaal de volledige zin is verwerkt, zal de decoder in gang schieten. Hier worden Engelse woorden één voor één gegenereerd. De decoder houdt hierbij in variërende mate rekening met de verschillende vectoren die door de encoder werd gegenereerd. Er zal meer rekening worden gehouden met de vectoren die het meest relevant zijn aan het woord dat wordt gegeneerd.
Chinees
Google beperkt zich niet tot het publiceren van een paper rond de nieuwe techniek, het bedrijf zal GNMT actief inzetten bij het vertalen van Chinees naar Engels. Deze vertalingen kenden de meeste problemen en worden maar liefst 18 miljoen keer per dag gebruikt.
Wie al eens een bericht heeft ontvangen dat volledig via Google Translate is vertaald, weet dat de populaire tool van Google de bal al eens durft mis te slaan. Slechts één woord per keer vertalen, zorgt daarentegen wel voor goede resultaten. Google heeft een nieuw algoritme uitgewerkt dat ervoor zorgt dat ook volledige zinnen en paragrafen een correct resultaat geven.
Neural Machine Translation
Vooralsnog maakte Google Translate gebruik van het zogenaamde ‘Phrase-Based Machine Translation’ (PBMT). Bij deze techniek wordt een tekst in woorden en zinsdelen opgesplitst. Deze delen worden hierna afzonderlijk verwerkt en vertaald, wat regelmatig tot vreemde resultaten leidt.
Om het tienjarige bestaan van Google Translate te vieren, heeft het bedrijf een nieuwe vertalingstechniek aangekondigd, namelijk ‘Google Neural Machine Translation’ (GNMT). In tegenstelling tot bij PBMT wordt er bij GNMT de volledige input als een geheel aanzien. Bij het vertalen van een woord in een zin zal de techniek rekening houden met de omringende woorden. Dit zorgt voor een vermindering van fouten met maar liefst 55 tot 85 procent.
Hoe donkerder een lijn, hoe meer rekening er wordt gehouden met de vector die het verbindt.
Encoders en decoders
In een paper doen onderzoekers van Google hun bevindingen uit de doeken. “Ons model bestaat uit een deep long short-term memory network met acht encoder- en acht decoderlagen, dat gebruik maakt van connecties tussen de decoder en encoder,” wordt uitgelegd in de paper.
Bij het vertalen van een Chinese zin naar het Engels, worden de woorden in de eerste plaats geëncodeerd naar een lijst van vectoren. Elke vector staat voor de betekenis van alle woorden die tot dan toe zijn gelezen. Eenmaal de volledige zin is verwerkt, zal de decoder in gang schieten. Hier worden Engelse woorden één voor één gegenereerd. De decoder houdt hierbij in variërende mate rekening met de verschillende vectoren die door de encoder werd gegenereerd. Er zal meer rekening worden gehouden met de vectoren die het meest relevant zijn aan het woord dat wordt gegeneerd.
Chinees
Google beperkt zich niet tot het publiceren van een paper rond de nieuwe techniek, het bedrijf zal GNMT actief inzetten bij het vertalen van Chinees naar Engels. Deze vertalingen kenden de meeste problemen en worden maar liefst 18 miljoen keer per dag gebruikt.