STAznanost

Nacionalna zbiralna akcija za razvoj velikega jezikovnega modela za slovenski jezik

Ljubljana, 9. januarja - Na Centru za jezikovne vire in tehnologije Univerze v Ljubljani (UL) v okviru projekta PoVeJMo razvijajo veliki jezikovni model za slovenski jezik, ki so ga poimenovali GaMS. Za njegov razvoj potrebujejo besedila v obsegu 40 milijard besed, zato so organizirali nacionalno zbiralno akcijo pisnih in govorjenih besedil v slovenščini.

Center za jezikovne vire in tehnologije UL je že pozval velike institucije, kot so Narodna in univerzitetna knjižnica ter medijske hiše, naj prispevajo svoja besedila. K sodelovanju pa vabi tudi posameznike in posameznice.

Kot so sporočili s centra, zbirajo vsa pisna besedila v digitalni obliki, posneta govorjena besedila in tudi rokopisno gradivo. Ker potrebujejo raznovrstna besedila, lahko posamezniki posredujejo splošna besedila, ki jih ustvarjajo vsakodnevno, denimo zabeležke, elektronska sporočila, prošnje, blog zapise, zapise na družbenih omrežjih ipd., ali specializirana besedila z določenega strokovnega področja, članke, poročila.

Sprejemajo vsa besedila, ne glede na to, ali so standardna, nestandardna, lektorirana ali nelektorirana. Edini pogoj je, da avtorji za oddana besedila zagotavljajo avtorske pravice. Ne sprejemajo pa vsebin z elementi pornografije ali sovražnega govora, so zapisali v sporočilu za javnost.

Posamezniki in posameznice, ki želijo sodelovati v zbiralni akciji besedil, lahko besedila pošljejo prek spletnega obrazca na spletni strani Povejmo.si.

"Čim več besedil bomo imeli, bolje bo model deloval. Jezikovni model lahko zgradimo samo skupaj in s sodelovanjem bodo posamezniki omogočili razvoj varne, kakovostne in odprto dostopne umetne inteligence v slovenščini," so navedli.

Priprava nacionalnega velikega jezikovnega modela bo po navedbah centra omogočila razvojno neodvisnost na področju jezikovnih tehnologij in zagotavljala skladnost z javnim interesom. Model bo odprto dostopen za različne namene, od uporabe v medicini in industriji do razvoja jezikovnih orodij za slovenščino, kar bo spodbudilo nadaljnji razvoj in konkurenčnost.

Slovenski jezikovni model bo odpravil jezikovne ovire in omogočil dostop do digitalnih storitev posameznikom tudi z manj razvitih območij. Ker bo razvit primarno na slovenščini, bo jezikovno bolj natančen in avtentičen ter bolje upošteval nacionalne specifike in kulturne posebnosti.