STAznanost
Humanistika in družboslovje

V okviru projekta RSDO zbirajo prevodne pare slovenščina-angleščina

Ljubljana, 30. junija - Konzorcij projekta Razvoj slovenščine v digitalnem okolju (RSDO) v okviru projekta razvija tudi strojne prevajalnike za jezikovni par angleščina-slovenščina. Pri tem posebno pozornost namenjajo zbiranju besedil za učenje prevajalnikov, za kar so postavili tudi portal za zbiranje prevodov.

Sodobni strojni prevajalniki temeljijo na modelu globokih nevronskih mrež, ki za učenje potrebujejo veliko količino učnih podatkov, kar v primeru prevajalnikov predstavljajo urejeni jezikovni pari - izvorno besedilo in ujemajoči se prevod v ciljnem jeziku.

Ravno pri tem pa se pri manjših jezikih zaplete oziroma, kot pravi Iztok Lebar Bajec s Fakultete za računalništvo in informatiko Univerze v Ljubljani, je to "rak rana vseh podatkovno usmerjenih pristopov, ki za svojo učinkovitost zahtevajo velike količine učnih podatkov".

"Žal so v okviru prevajalnikov podatki, ki so na voljo in najlažje dosegljivi, predvsem v specifičnih domenah, kot so patenti in navodila za uporabo. To močno vpliva na kakovost naučenih sistemov," poudarja.

Andraž Repar iz podjetja Aikwit, člana konzorcija RSDO, je "majhnost" slovenskega jezika ponazoril s številom segmentov v prosto dostopnih korpusih za različne jezike. Tako ima par slovenščina-angleščina denimo 47 milijonov takšnih segmentov, medtem ko jih ima par nemščina-angleščina 436,5 milijona.

Ob tem je slaba polovica segmentov v paru angleščina-slovenščina dostopna iz korpusa Open Subtitles oziroma podnapisov.

"To predstavlja težavo, če želimo postaviti kakovosten splošni strojni prevajalnik, s katerim bomo lahko prevajali predavanja, izjave za javnost, članke (...) Podnapisi so precej drugačna besedila, prav tako pa njihova kakovost precej niha, saj so jih prevajali tudi domači entuziasti," je poudaril.

Prav zaradi tega so v okviru projekta vzpostavili portal za zbiranje prevodov na naslovu https://zbiranje.slovenscina.eu/prevodi, prek katerega lahko besedilodajalci na enostaven način oddajo svoj prevod.

Takšno pomoč po njegovih besedah potrebujejo, saj morajo upoštevati licence o avtorskih pravicah. "Za vsako besedilo potrebujemo tudi dovoljenje avtorja oziroma imetnika avtorskih pravic," je dodal.

Sprejemajo besedila v vseh oblikah, seveda v paru izvirnik-prevod, saj želijo zbrati čim več učnih podatkov.

Tudi sicer se področje nevronskih prevajalnikov po besedah Lebar Bajca izjemno hitro razvija, za razvoj pa se uporabljajo različne topologije globokih nevronskih mrež. Posledica tega razvoja so tudi odprtokodne rešitve, ki omogočajo postavitev lastnih prevajalnikov.

Kot je pojasnil Lebar Bajec, so v okviru RSDO po pregledu stanja, preučeni dokumentaciji izbrali dve orodji, ki podpirata tudi najnovejše pristope in v okviru teh dveh razvijajo lastne prevajalnike s fokusom na slovenščino.

Nasploh je zgodovina strojnih prevajalnikov po njegovih besedah nekako razdeljena na dve obdobji, do leta 2000 so prevladovali prevajalniki na osnovi pravil, po tem letu pa so glavno vlogo prevzeli podatkovno osnovani prevajalniki.

Največji preskok v uporabnosti strojnih prevajalnikov pa predstavlja prav vpeljava globokih nevronskih mrež okoli leta 2014.

Koncept nevronske mreže po besedah Lebar Bajca izhaja iz "posnemanja poenostavljenega delovanja človeških možganov" oziroma nevronov in sinaps, ki nevrone povezujejo.

Nevronski prevajalnik pa je v osnovi ogrodje tipa kodirnik-dekodirnik oziroma dveh povezanih nevronskih mrež, kjer je vhod prve stavek v izvornem jeziku, izhod druge pa stavek v ciljnem jeziku.