STAznanost
Naravoslovje in tehnika

Projekt Embeddia želi manjšim jezikom približati visokotehnološka jezikovna orodja

Ljubljana, 25. januarja - Z začetkom leta je v okviru evropskega programa Obzorje 2020 stekel triletni projekt Embeddia, ki ga koordinira Institut Jožef Stefan (IJS). Glavni cilj projekta je z uporabo medjezikovnih tehnologij za manjše jezike ustvariti orodja, ki že obstajajo v večjih jezikih in medijem pomagajo pri ustvarjanju vsebin, bodisi z analizo novic v več jezikih bodisi z avtomatizacijo ustvarjanja preprostih novic.

Koordinatorka projekta Senja Pollak z IJS je ob robu srečanja partnerjev ob začetku projekta za STA pojasnila, da se projekt osredotoča predvsem na medijske aplikacije orodij v morfološko bogatih, a manj zastopanih jezikih.

Orodja, ki uporabljajo tehnologije umetne inteligence, so že dostopna v dominantnih jezikih, saj potrebujejo ogromne količine podatkov in velik človeški vložek, seveda pa je ta vložek v velikih jezikih veliko večji kot v manjših.

Kot je dejala Nada Lavrač, vodja Odseka za tehnologije znanja, ki je na IJS odgovoren za projekt Embeddia, veliki svetovni igralci, kot je Google, za svoja orodja uporabljajo ogromne korpuse in pogosto tudi anotirana besedila.

Partnerji, med katerimi je šest akademskih in štirje industrijski, želijo s projektom oziroma "s sodobnimi metodami medjezikovnih vektorskih vložitev, ki omogočajo preslikave med jeziki," ta orodja prilagoditi za uporabo v manjših jezikih.

Po besedah Marka Robnika Šikonje, profesorja na ljubljanski fakulteti za računalništvo in informatiko, ki pri projektu sodeluje v sklopu Univerze v Ljubljani, tehnologija medjezikovnih preslikav besede ali stavke preslika v številski prostor in tako omogoči prenos znanja iz večjih jezikov v manjše.

"Seveda pa je to znanstveno zelo ambiciozen cilj," saj se ta tehnologija šele razvija, je dejala Nada Lavrač. Kot je poudarila, je Embeddia zanimiva z znanstvenega in z industrijskega vidika.

"Za medijsko industrijo nas zanimajo aplikacije za analizo novic, za analizo uporabniških komentarjev ter za pomoč pri ustvarjanju novic, da bi sprostili čas novinarjev za osredotočanje na pomembnejše dele zgodbe," je dejala Senja Pollak.

Z najnovejšimi tehnologijami, ki jih bodo uporabljali v projektu, je namreč po besedah Robnika Šikonje možno analizirati velike količine tekstovnih podatkovnih baz, med drugim glede vseh vrst pristranskosti, kot sta na primer rasna ali spolna, pa tudi glede sovražnega govora.

V projektu sodelujejo štirje industrijski partnerji: tri medijska podjetja - finska tiskovna agencija STT, estonska skupina AS Ekspress Meedia in hrvaški Styria Medijski Servisi -, ter estonsko podjetje Texta OU, ki se ukvarja z orodji procesiranja naravnega jezika.

Salla Salmela s finske STT, kjer veliko pozornosti namenjajo avtomatizaciji, je poudarila, da želijo najti čim bolj splošne tehnološke rešitve, ki bi jim pomagale pri novinarskem delu.

"Trenutno želimo predvsem izvedeti, kakšne zamisli in rešitve imajo partnerji ter kakšna pot bi bila za nas najbolj optimalna. Smo z majhnega jezikovnega področja, saj pišemo v finščini, zato nas zelo zanimajo medjezikovne vložitve," je še dejala.

Embeddia je zastavljena interdisciplinarno, saj je pri tehnologiji treba upoštevati tudi širše družbene vidike, in tako v okviru Univerze v Ljubljani pri projektu sodeluje tudi Fakulteta za družbene vede.

Po besedah profesorja novinarstva Marka Milosavljevića bodo tehnološkemu in lingvističnemu vidiku s tem dodali družboslovno dimenzijo. Na primer, "kako novinarji in uredniki [tehnologijo umetne inteligence] uporabljajo in katere dileme in težave pri tem vidijo," je dejal Milosavljević in izpostavil problematiko prevodov, pa tudi zaznave lažnih videov, ki postaja vse bolj pomembna tematika.

Projekt Embeddia: Medjezikovne vektorske vložitve za manj zastopane jezike v evropskih medijih, vreden tri milijone evrov, bo potekal tri leta, poleg IJS in ljubljanske univerze pa kot akademski partnerji sodelujejo še britanski univerzi Queen Mary iz Londona in edinburška univerza, francoska univerza iz La Rochella ter helsinška univerza.