znanost 30.3.2017 13:36

Inštitut za slovenski jezik s korakom naprej pri digitalizaciji jezika

Ljubljana, 30. marca - Inštitut za slovenski jezik Frana Ramovša ZRC SAZU je po portalu Fran, ki govorcem slovenščine daje dostop do slovarskih podatkov, začel odpirati večino jezikovnih virov za jezikovnotehnološke namene od 16. do 21. stoletja. To bo jezikovnim tehnologom omogočilo, da slovarske baze obdelajo s svojimi programi in izboljšajo npr. Googlov prevajalnik.

S tem so, kot so sporočili z inštituta, napravili prvi korak k bolj celoviti digitalizaciji slovenskega jezika skladno z dogovorom, ki so ga sprejeli udeleženci razprave o jezikovnih virih in tehnologijah 30. januarja letos pod pokroviteljstvom ministrstva za kulturo. Vlada pa je glede na ugotovitve iste razprave nedavno ustanovila svet za spremljanje razvoja jezikovnih virov in tehnologij, ki bo kot koordinacijsko telo skrbel za podporo celovitim rešitvam na področju digitalizacije slovenščine.

Kot je za STA podrobneje pojasnil predstojnik inštituta Marko Snoj, v odprti dostop najprej dajejo 16 virov, med katerimi so Slovensko-nemški slovar Maksa Pleteršnika, Slovenski lingvistični atlas 1 in 2, Besedišče slovenskega jezika, Baza opisov slovnic in pravopisov, Vezljivostni slovar slovenskih glagolov Andreje Žele, Besedje slovenskega knjižnega jezika 16. stoletja, Slovar slovenskih frazemov Janeza Kebra in Slovenski pravopis iz leta 2001.

Enako načrtujejo s še več drugimi viri, med njimi je Slovar slovenskega knjižnega jezika, za katere pa morajo pridobiti soglasja lastnikov materialnih avtorskih pravic oziroma njihovih dedičev. "To pa je vedno težava. Poglejte npr. Enciklopedijo Slovenije: država jo je financirala leta in leta, a ne bo nikoli druge izdaje, ker ne morejo pridobiti soglasja vseh avtorjev. Upam, da pri nas ne bo tako črno," je poudaril Snoj.

Potem ko je inštitut pred poltretjim letom vzpostavil slovarski portal Fran in s tem med evropskimi inštituti za jezik zavzel prvo mesto v prosti dostopnosti temeljnih in tem podobnih slovarjev, so tudi jezikovne vire za jezikovnotehnološke namene dali v odprti dostop kot prvi v Evropi oziroma na svetu. Ali so naredili prav ali ne, pa bo po predstojnikovih besedah pokazal čas.

Odpiranje virov bo sicer po njegovih navedbah koristilo jezikovnim tehnologom, saj bodo slovarske baze, ki so za navadne uporabnike popolnoma neuporabne, lahko obdelali s svojimi programi in izboljšali npr. Googlov prevajalnik. Lahko bodo naredili svoje prevajalnike, razne vmesnike za pametne naprave, pregibnike, da bodo programi pravilno delili besede, da bodo našli pravilno obliko besede ipd.

Na ta način bodo jezikovni tehnologi - tisti, ki so hkrati jezikoslovci in računalniško zelo izobraženi ter se spoznajo na podatkovne zbirke - lahko izboljšali uporabniške izkušnje, nenazadnje za ljudi s posebnimi potrebami. "Marsikaj je mogoče iz tega narediti," pravi Snoj.

Z malo domišljije za prihodnost bi se po njegovih besedah znalo zgoditi, da bi tudi digitalna asistentka Siri nekoč spregovorila v slovenščini. "Slovenščina je tako raziskana, imamo te baze podatkov, dajemo jih v javnost zastonj in brez kakršnikoli obveznosti, zdaj pa naj jezikovni tehnologi iz tega naredijo, kar pravijo, da znajo narediti. In to je konec koncev tudi Siri," je še dodal Snoj.