Med novostmi CJVT tudi gradnja velikega jezikovnega modela za slovenščino
Ljubljana, 20. marca - Na Fakulteti za računalništvo in informatiko Univerze v Ljubljani (UL) so danes predstavili dejavnosti Centra za jezikovne vire in tehnologije (CJVT UL). Med drugim gradijo veliki jezikovni model za slovenščino GaMS, s katerim želijo omogočiti razvoj varne, kakovostne in odprto dostopne umetne inteligence v slovenščini.
Ljubljana, Fakulteta za računalništvo in informatiko UL.
Javna predstavitev dela Centra za jezikovne vire in tehnologije Univerze v Ljubljani.
Foto: Daniel Novakovič/STA
Ljubljana, Fakulteta za računalništvo in informatiko UL.
Javna predstavitev dela Centra za jezikovne vire in tehnologije Univerze v Ljubljani.
Foto: Daniel Novakovič/STA
Ljubljana, Fakulteta za računalništvo in informatiko UL.
Javna predstavitev dela Centra za jezikovne vire in tehnologije Univerze v Ljubljani.
Foto: Daniel Novakovič/STA
Ljubljana, Fakulteta za računalništvo in informatiko UL.
Javna predstavitev dela Centra za jezikovne vire in tehnologije Univerze v Ljubljani.
Foto: Daniel Novakovič/STA
Ljubljana, Fakulteta za računalništvo in informatiko UL.
Javna predstavitev dela Centra za jezikovne vire in tehnologije Univerze v Ljubljani.
Foto: Daniel Novakovič/STA
Ljubljana, Fakulteta za računalništvo in informatiko UL.
Javna predstavitev dela Centra za jezikovne vire in tehnologije Univerze v Ljubljani.
Foto: Daniel Novakovič/STA
Ljubljana, Fakulteta za računalništvo in informatiko UL.
Javna predstavitev dela Centra za jezikovne vire in tehnologije Univerze v Ljubljani.
Foto: Daniel Novakovič/STA
Ljubljana, Fakulteta za računalništvo in informatiko UL.
Javna predstavitev dela Centra za jezikovne vire in tehnologije Univerze v Ljubljani.
Foto: Daniel Novakovič/STA
Ljubljana, Fakulteta za računalništvo in informatiko UL.
Javna predstavitev dela Centra za jezikovne vire in tehnologije Univerze v Ljubljani.
Foto: Daniel Novakovič/STA
Obstoječi jezikovni modeli so večinoma naučeni na podatkovnih virih iz večjih jezikov, predvsem angleščine, manjka pa jim kulturne specifičnosti slovenščine, je danes poudaril profesor na fakulteti Marko Robnik Šikonja. Na fakulteti zato v okviru projekta PoVeJMo gradijo veliki jezikovni model za slovenski jezik, ki so ga poimenovali GaMS. Pred časom so izdali prvo različico GaMS 1B, danes pa so predstavili njegovo nadgradnjo, model GaMS 9B.
Za njegov razvoj sicer potrebujejo besedila v obsegu 40 milijard besed, zato so organizirali nacionalno zbiralno akcijo pisnih in govorjenih besedil v slovenščini. Kot je predstavila vodja zbiralne akcije Špela Arhar Holdt, so k sodelovanju že pozvali velike institucije, kot so Narodna in univerzitetna knjižnica ter medijske hiše, vabijo pa tudi posameznike. Vsi, ki želijo sodelovati, lahko besedila pošljejo prek spletnega obrazca na spletni strani Povejmo.si.
"Ko bomo obdelali podatke, zbrane v trenutni akciji, bomo oba modela dodatno nadgradili. Poleg tega načrtujemo tudi objavo še večjega modela GaMS 27B," je dodal Robnik Šikonja.
Jezikovni model bo za javnost prosto dostopen, poleg splošne uporabe pa bo po profesorjevih besedah prilagojen tudi za industrijske in raziskovalne namene.
Fakulteta je nedavno začela tudi z novim petletnim projektom Umetna inteligenca za digitalno humanistiko (AI4DH) v vrednosti 2,5 milijona evrov, s katerim bo raziskovalcem v humanistiki in družboslovju omogočila uporabo umetne inteligence za naprednejše raziskave v digitalni humanistiki.
V ta namen bodo vzpostavili center odličnosti, ki ga bo vodil profesor računalništva na Univerzi v La Rochelle v Franciji in član Laboratorija za strojno učenje in jezikovne tehnologije na slovenski fakulteti Antoine Doucet. Kot je pojasnil, bo center raziskovalcem zagotavljal podporo pri uporabi orodij umetne inteligence, strojnega učenja in analize podatkov. Na voljo bodo imeli infrastrukturo za razvoj modelov umetne inteligence, vključno z velikimi jezikovnimi modeli, in strokovno pomoč pri razvoju novih pristopov, prilagojenih humanističnim področjem.
Danes so predstavili tudi spletni portal CJVT z izobraževalnimi jezikovnimi igrami. Pod vodstvom profesorja Iztoka Kosma in Špele Arhar Holdt so ustvarili že tri igre, in sicer Cvetka, Besedolov in Vezalka, pri katerih uporabniki na različne načine iščejo besede. Po besedah Kosma trenutno pripravljajo še dve novi igri in načrtujejo širitev platforme. "Namen je predvsem združevati zabavo in učenje jezika," je dejal.
Arhar Holdt je predstavila tudi konkordančnik za korpus Šolar. Kot je pojasnila, gre za novo orodje, s katerim lahko opazujemo šolska besedila in jezikovne popravke v njih. Na tak način je mogoče raziskovati zbirko besedil, ki so jih učenci in dijaki različnih slovenskih osnovnih in srednjih šol napisali pri pouku, pa tudi besedila tečajnikov, ki se učijo slovenščine kot drugega oz. tujega jezika.
Kot je povedala, korpus Šolar sicer obstaja in se razvija že vrsto let, novo orodje pa je zanimivo tako za slovenski prostor kot za tujino, saj podobna obstoječa orodja niso v enaki meri tako zmogljiva in uporabniško prijazna.
"Posebej dragocen je, ker omogoča enostaven dostop do bogato označenih korpusnih podatkov, kar je koristno za jezikoslovne raziskave, pripravo učnih gradiv in uporabo v učilnicah," je izpostavila.
Danes so predstavili tudi nove različice slovarjev sopomenk, kolokacij in Slovarja za govorce slovenščine kot drugega in tujega jezika (SLOGOST). Pri slednjem gre za prvi tovrstni slovar za tuje govorce slovenščine.