STAznanost
Humanistika in družboslovje

CJVT: Ključna vzpostavitev ustreznega sistema zbiranja slovenskih besedil za učenje jezikovnih modelov

Ljubljana, 31. marca - Center za jezikovne vire in tehnologije (CJVT) se je danes za STA odzval na pomisleke ob zbiralni akciji besedil za razvoj velikega jezikovnega modela. Po njihovo je ključna vzpostavitev sistema zbiranja in hranjenja slovenskih besedil v obliki, primerni za učenje jezikovnih modelov, ki mu lastniki avtorskih pravic lahko tudi zaupajo.

Pri Zbornici knjižnih založnikov in knjigotržcev ter Društvu slovenskih književnih prevajalcev so na omenjeno akcijo odzvali v minulem tednu in opozorili na odprta vprašanja glede avtorskih pravic ter zaščite del pred nepooblaščeno rabo in širjenjem.

Pri CJVT odgovarjajo, da je cilj projekta Povejmo, ki ga na Fakulteti za računalništvo in informatiko v Ljubljani izvajajo skupaj s sedmimi partnerji, izdelava odprtega jezikovnega modela za slovenščino, ki je dostopen vsem na enak način pod enakimi pogoji.

Hkrati v okviru CJVT vzpostavljajo tehnološko infrastrukturo, ki naj bi zagotovila, da bo v aplikacijah umetne inteligence lahko na nadzorovan način trajno podprta tudi slovenščina. V ta namen so vzpostavili in zagotavljajo varno hrambo besedil v slovenskem jeziku, tudi avtorsko zaščitenih, ter pravne podlage in tehnične pogoje za vključevanje teh besedil v učenje njihovega ter drugih odprto dostopnih velikih jezikovnih modelov za slovenščino.

Pri pravnih rešitvah sledijo trenutno veljavni slovenski in evropski zakonodaji glede upravljanja avtorskih pravic. Pripravili so dogovor o uporabi avtorskih del v zvezi z zbiranjem besedil za namen gradnje odprtih jezikovnih modelov za slovenski jezik, ki ga uporabljajo pri zbiranju besedil, vključenih v učenje slovenskega jezikovnega modela GaMS. Avtorji oz. lastniki avtorskih pravic, ki svoja besedila prispevajo, se torej eksplicitno strinjajo z njihovo rabo za ta specifičen namen. V primerih, ko jim dostop omogočajo ustanove, ki gradiva le hranijo, niso pa lastniki avtorskih pravic, iščejo tudi drugačne pravno vzdržne rešitve, so zapisali.

Kot so poudarili, je zanje ključno, da vzpostavijo trajen in robusten sistem zbiranja in hranjenja slovenskih besedil v obliki, primerni za učenje jezikovnih modelov, ki mu lastniki avtorskih pravic, ki se s tako uporabo besedil strinjajo, lahko tudi zaupajo. Šele obstoj take infrastrukture namreč lahko osmisli nadaljnje odločanje, katera avtorskopravno zaščitena gradiva bodo dejansko vključena v infrastrukturo in posledično v učenje bodočih jezikovnih modelov in katera ne. To bo tako ali drugače določala sedanja in bodoča zakonodaja ter tudi širši družbeni konsenz, tako v Sloveniji kot v EU, so dodali.

Opozarjajo, da trenutno potekata implicitno tekmovanje med jeziki in tekma s časom, ko se odloča, do katere mere bo ta ali oni jezik podprt z umetno inteligenco. Pri tem je najpomembnejše vprašanje, do kakšne količine podatkov v določenem jeziku bodo imeli dostop veliki jezikovni modeli pri učenju, pri čemer imajo jeziki z večjim številom govorcev nenadomestljivo prednost.

"Če zberemo vsa besedila, ki so bila kdajkoli v zgodovini napisana v slovenščini, bodo predstavljala le droben delček v primerjavi z angleškimi, kitajskimi, španskimi in drugimi besedili, na katerih so bili naučeni veliki jezikovni modeli," opozarjajo in dodajajo, da gre pri tem vprašanju za kolektivno odločitev govorcev in govork slovenščine, do katere mere želimo, da bo umetna inteligenca znala slovensko oziroma bo poznala slovensko okolje in kulturo.

Kot so še zapisali, je njihov namen zagotavljati osnovno infrastrukturo za slovenski jezik, ki je odprta in globalno dostopna vsem pod enakimi pogoji. Odprt jezikovni model, ki ga gradijo v okviru projekta Povejmo, predstavlja nujen del take jezikovne oziroma jezikovnotehnološke infrastrukture. Menijo, da bi morala biti osnovna jezikovna infrastruktura dostopna vsem na podoben način, kot je v ustavo zapisana pravica do pitne vode ter da jezik kot tak ne bi smel biti tržno blago, za osnovno jezikovno infrastrukturo pa mora poskrbeti država. Ob tem ne izključujejo možnosti, da se vprašanje denarnih nadomestil vzpostavlja in razrešuje med akterji znotraj komercialne sfere.

Pri projektu so, kot poudarjajo, vedno pripravljeni na dialog z vsemi deležniki. Termin za srečanje s predstavniki Društvu slovenskih književnih prevajalcev še iščejo, Zbornica knjižnih založnikov in knjigotržcev pa po njihovih navedbah do sedaj ni izrazila želje po dodatnih predstavitvah ali pogovorih.