STAznanost
Humanistika in družboslovje

Nacionalna zbiralna akcija za razvoj velikega jezikovnega modela v slovenščini

Ljubljana, 27. avgusta - V Sloveniji je stekla zbiralna akcija besedil za razvoj velikega jezikovnega modela. Z njim želijo omogočiti razvoj varne, kakovostne in odprto dostopne umetne inteligence v slovenščini. V okviru akcije, ki jo koordinira Fakulteta za računalništvo in informatiko v Ljubljani, je mogoče prispevati pisna in govorjena besedila.

Akcija je del projekta, poimenovanega PoVeJMo (Prilagodljiva obdelava naravnega jezika s pomočjo velikih jezikovnih modelov). Njegov cilj pa je zbrati besedila v obsegu 40 milijard besed, ki bodo služila za izgradnjo odprtodostopnega jezikovnega modela.

S pripravo tega modela si Slovenija prizadeva doseči razvojno neodvisnost in spodbujati napredek jezikovnih tehnologij v slovenščini, so danes sporočili s Fakultete za računalništvo in informatiko Univerze v Ljubljani.

"Želeni obseg gradiva, ki zagotavlja primerljivost z drugimi velikimi jezikovnimi modeli po Evropi, bo za slovenščino kar velik izziv," je pojasnil vodja projekta Simon Krek z omenjene fakultete.

Pri projektu poleg omenjene fakultete sodelujejo tudi Inštitut za novejšo zgodovino, ZRC SAZU in pet slovenskih podjetij. Zbiratelji pričakujejo aktivno vključenost javnih in zasebnih ustanov ter posameznikov. Doslej so zbrali 9,2 milijarde besed, je razvidno iz spletne strani projekta.

Projekt PoVeJMo je del prizadevanj Slovenije za krepitev razvoja jezikovnih tehnologij in zagotavljanja, da slovenščina ohrani pomembno vlogo v digitalni dobi. Model bo uporaben za raziskovalce, podjetja, razvijalce in širšo javnost.

Besedila bo mogoče oddati prek spletne strani zbiralne akcije https://povejmo.si/, zbiranje pa bo potekalo letos in prihodnje leto.