Vertimai ir naujausios technologijos

2018 M12 29 | Kita

Vertimai internete

Vertimai internete


 Google vertėją atidarome du kartus dažniau nei socialinį tinklą „Facebook“, o netikslus, bet dažnai naudingas mašininis vertimas jau nieko nestebina. Prie šių patogumų pripratome ir tai įpratome vadinti realybe. Sunku įsivaizduoti, kad tai yra tūkstantmečio kovos rezultatas – kuriant mašininio vertimo algoritmus ir, svarbiausia, kad pusė to laikotarpio nebuvo pastebėta.


Pokyčiai, kurie yra aptariami šiame straipsnyje sukūrė šiuolaikinių kalbų apdorojimo sistemų pagrindą – nuo paieškos sistemų iki balso valdomų bangų. Taigi, kokia mašininio vertimo raida ir struktūra?


Mašininio vertimo istorija


Istorija prasideda nuo 1933 metų, kai Sovietų Sąjungos mokslininkas Petras Trojanskis pristatė TSRS mokslų akademijai „aparatą – žodžių atrankai ir spausdinimui iš vienos kalbos į kitą“ (angl. „the machine for the selection and printing of words when translating from one language to another“). Išradimas buvo labai paprastas – turėjo korteles su žodžiais (keturiomis skirtingomis kalbomis), rašomąją mašinėlę ir senovinę vaizdo įrašymo kamerą.


Nepaisant to, kaip tai TSRS atsitikdavo, išradimas buvo laikomas „nenaudingu“. P. Trojanskis bandydamas per 20 metų užbaigti savo išradimą mirė nuo stenokardijos. Niekas pasaulyje nežinojo apie išradimą tol, kol 1956 metais du Sovietų Sąjungos mokslininkai aptiko jo patentą.


Tai buvo šaltojo karo pradžia. 1954 metų sausio 7 dieną IBM būstinėje Niujorke (JAV), prasidėjo „Georgetown-IBM“ eksperimentas. IBM 701 kompiuteris pirmą kartą istorijoje iš rusų kalbos į anglų kalbą automatiškai išvertė 60 sakinių.


Tačiau pergalinga eksperimento sėkmė nuslėpė vieną smulkmeną. Niekas neminėjo, kad išversti pavyzdžiai buvo kruopščiai atrinkti ir patikrinti, kad neliktų jokių dviprasmybių. Kasdieniniam naudojimui ši sistema netiko, nes prilygo kišeninei frazių knygai. Užtat, tai nesutrukdė prie šių mašininio vertimo varžybų prisijungti ir kitoms šalims, kaip – Kanadai, Vokietijai, Prancūzijai ir ypač Japonijai.


Mašininio vertimo varžybos


1966 m. JAV ALPAC komitetas savo ataskaitoje pavadino mašininį vertimą kaip brangų, netikslų ir neprotingą. Be to, jie rekomendavo sutelkti dėmesį į žodynų kūrimą, kas beveik dešimtmečiui išstūmė JAV mokslininkus iš lenktynių. Nepaisant to, šiuolaikinės natūralios kalbos apdorojimo pagrindą sukūrė mokslininkai, jų bandymai, tyrimai ir inovacijos. Pastovios pastangos pagerinti mašininį vertimą tęsėsi keturiasdešimt metų.


Neuroninis mašininis vertimas (angl. NMT)


2014 metais paskelbtas gana įdomus straipsnis apie neuroninių tinklų naudojimą mašininio vertimo procese. Interneto naudojai jo beveik nepastebėjo, išskyrus „Google“ – įmonės darbuotojai paėmė savo „kastuvus“ ir ėmė „kasti“ giliau. Po dvejų metų, 2016 metų lapkričio mėnesį, „Google“ paskelbė viską keičiančią naujieną.


Per dvejus metus neuroniniai tinklai viršijo viską, kas buvo pasiekta per pastaruosius 20 vertimo metų. Neuroniniai vertimai apima 50 proc. mažiau žodžių eiliškumo klaidų, 17 proc. mažiau leksikos klaidų ir 19 proc. mažiau gramatikos klaidų. Jų pasiekimai stebina, jau neminint fakto, kad neuroniniai tinklai išmoko suderinti lytį skirtingomis kalbomis. Statistiniai mašininių vertimų metodai visada veikė kaip pagrindinį šaltinį naudojant anglų kalbą. Taigi, tekstą verčiant iš rusų į vokiečių kalbą, sistema iš pirmo išversdavo tekstą į anglų kalbą, o vėliau iš anglų į vokiečių kalbą, kas sąlygojo dvigubus teksto nuostolius.


Neuroniniam vertimui to nereikia, kad jis galėtų veikti – šiai sistemai reikalingas tik dekoderis.


Google“ vertimas (nuo 2016 m.)


2016 metais „Google“ įjungė neuroninį vertimą devyniomis kalbomis. Įmonė sukūrė savo sistemą, pavadintą „Google neuroninis mašininis vertimas“ (angl. GNMT), kurį sudaro 8 kodavimo ir 8 dekoderių sluoksniai „RNN“, taip pat jungtys iš dekoderio tinklo.


„Google“ vertėjas, kuris naudojamas svetainės vertimui naršyklėje, vis dar kaip pagrindą naudoja senomis frazėmis pagrįstus algoritmus. Dėl tik įmonei žinomų priežasčių, ji nepagerino šios sistemos ir skirtumai yra pakankamai pastebimi, palyginus su versija internete. „Google“ internetinėje vertimo versijoje naudoja „crowdsourcing“ mechanizmą. Žmonės gali pasirinkti, kokią frazės versiją jie laiko tinkamiausia, ir, jei daugelis vartotojų pasirenką tą pačią versiją, „Google“ visada išverčia šią frazę taip pat ir pažymi ją specialiu ženklu. Tai puikiai veikia su kasdienėmis frazėmis, pvz. „Einu į darbą“, arba „Žiūrėti televizorių“.


„Microsoft Bing“ veikia kaip „Google Translate“, užtat „Yandex“ mašininis vertimas yra kitoks.


Yandex“ vertimas (nuo 2017 m.)


2017 m. „Yandex“ paleido savo neuroninio vertimo sistemą, kurios pagrindinė savybė – hibridiškumas. „Yandex“ mašininio vertimo sistema, kad išverstų sakinį apjungia neuroninius ir statistinius metodus ir tada pasitelkiant „CatBoost“ algoritmą atrenka geriausią variantą.


Svarbiausia yra tai, kad neuroninis vertimas dažnai nepavyksta, kai verčiami trumpi sakiniai, nes „Yandex“ mašininio vertimo procese, kad būtų pasirinkti tinkami žodžiai yra naudojamas kontekstas.


Mašininio vertimo ateitis


Kiekvienas vis dar džiaugiasi dėl galimos greitos kalbų vertimo idėjos. „Google“ žengė į priekį su savo „Pixel Buds“, bet iš tikrųjų tai dar ne visai tai apie ką svajojame. Tiesioginis kalbos vertimas vis dar labai skiriasi nuo įprastinio vertimo.


Dar viena tuščia sritis: visi mokymai yra tik lygiagrečių teksto blokų rinkinys. Giliausi neuroniniai tinklai vis dar mokosi lygiagrečiais tekstais. Negalime mokyti neuroninio tinklo, nepateikdami jam šaltinių. Vietoj to žmonės gali papildyti savo leksiką skaitydami knygas ar straipsnius, net jei neverčia jų į gimtąją kalbą. Jei žmonės gali taip elgtis, tai neuroniniai tinklai taip pat gali tai padaryti, teoriškai.