Diplome in magisteriji

Poleg tem na tej strani so dobrodošle tudi vaše lastne ideje. Predlagam, da se oglasite na govorilnih urah ali po elektronski pošti. Moji trenutni predlogi so povečini raziskovalno-razvojni projekti in praktične aplikacije. Raziskovalne naloge so pretežno s področij strojnega učenja in obdelave naravnega jezika. Motivacija za praktične naloge so povečini realni problemi, s katerimi se soočajo slovenska ali tuja podjetja in organizacije. Naloge so predlagane za več stopenj študija, vendar bomo dejansko količino dela, zahtevnost in obseg tematike prilagodili stopnji.

Dodajanje znanja v globoke nevronske mreže / Deep neural networks with additional knowledge

Globoke nevronske mreže so zelo uspešne pri številnih nalogah, a zahtevajo dovolj velike učne množice označenih primerov, ki niso vedno na voljo. Za nekatere probleme teh podatkov enostavno ni dovolj, obstajajo pa drugi viri (npr. znanstvene teorije, pravila, diferencialne enačbe), ki lahko nadomestijo pomanjkanje podatkov. V zadnjem času se je pojavilo nekaj pristopov, ki zmorejo druge vire znanja integrirati v globoko učenje, npr. relacije izražene z grafi ali z logičnimi programi. Preizkusite posamezne pristope za integracijo znanja v globoke nevronske mreže in jih nadgradite s pristopom učenja s prenosom znanja. 

Razlaga odločitev modelov strojnega učenja za besedila / Explanations for machine learning models on textual data

Pri strojnem učenju je za mnogo problemov poleg dobre napovedne točnosti pomembna tudi razlaga napovedanih odločitev. Npr. v medicini zdravniki ne bodo zaupali napovedi globoke nevronske mreže, da je pri nekem pacientu velika verjetnost srčne aritmije, če jim ne znamo pojasniti, kako je model prišel do takšne napovedi. Obstoječe načine razlage napovednih modelov boste prilagodili za sekvenčne podatke kot so besedila (potrebno je upoštevati sekvenčno naravo besedil) in preizkusili na nekaj klasifikacijskih nalogah.

Klasifikacija s pomočjo medjezikovnih vektorskih vložitev  - več nalog / Classification based on cross-lingual word and text embeddings - several tasks

Besede in večje besedilne enote (stavki, odstavku, dokumenti) lahko preslikamo v visokodimenzionalni vektorski prostor (npr. med 100-1000 dimenzij) s pomočjo sonastopanja v veliki enojezični zbirki besedil. Takšne goste vložitve ohranijo nekatere semantične lastnosti besedil, saj se besede s podobnimi pomeni in podobno rabo preslikajo blizu skupaj. Goste vložitve so nujne za uspešno učenje globokih nevronskih mrež. Če vložitve naredimo za več jezikov, se izkaže, da lahko besedne gruče različnih jezikov poravnamo glede na istopomenske besede. Te medjezikovne vložitve lahko izkoristimo za različne namene, npr. za pomoč pri prevajanju, prenašanju znanja in besedilnih orodij med jeziki, povečanje učne množice, analizo jezikovnih posebnosti, kot so fraze itd. V okviru EU projekta Embeddia razvijamo različne izboljšave trenutnih tehnik vektorskih vložitev in njihove praktične uporabe. Za svojo nalogo boste izbrali enega od aktualnih problemov, bodisi pri razvoju vložitev ali njihovi rabi, predvsem na področju medijske industrije in jezikov z bogato morfologijo, kot je slovenščina. Primeri nalog so

Procesiranje naravnega jezika (slovenščina) - več nalog  / Natural language processing (Slovene and other languages) - several tasks

S pomočjo orodij za obdelavo naravnega jezika in globokih nevronskih mrež  želimo rešiti nekaj jezikovnih problemov v slovenščini. Primeri nalog so npr.

Nekatere naloge bodo potekale v sodelovanju z jezikoslovci.

Večjezikovno procesiranje - več nalog / Multilingual processing -several tasks

V okviru pobude Universal Dependencies, ki si prizadeva za mednarodno usklajeno oblikoslovno in skladenjsko označevanje besedil, je danes na voljo že več kot 100 skladenjsko razčlenjenih korpusov za več kot 60 svetovnih jezikov, vključno s slovenščino. Kljub obilici primerljivih jezikovnih podatkov pa še vedno primanjkuje orodij za njihovo poglobljeno analizo in medsebojno primerjavo. Na voljo je več nalog, ki izdelajo katero od manjkajočih orodij, spodaj sta navedeni dve.

Uporaba oblikoslovnih leksikonov skupaj z globokimi nevronskimi mrežami za oblikoskladenjsko analizo
V zadnjih letih orodja, ki temeljijo na arhitekturi globokih nevronskih mrež, korenito spreminjajo področje obdelave naravnih jezikov. To potrjujejo tudi rezultati nedavnega mednarodnega tekmovanja CoNLL Shared Task 2017 in 2018, na katerem so različni nevronski označevalniki z uporabo vektorskih vložitev za oblikoskladenjske oznake v slovenščini in drugih jezikih dosegli veliko boljše rezultate kot starejša, a še vedno široko rabljena lokalna označevalna orodja, ki temeljijo na klasičnih metodah strojnega učenja. Po drugi strani lokalna orodja še vedno dosegajo boljše rezultate na ravni lematizacije, saj v svojo arhitekturo vključujejo tudi obsežen leksikon besednih oblik, ki je za morfološko bogate jezike, kot je slovenščina, zelo pomemben. Cilj naloge je združiti oba pristopa in raziskati, v kolikšni meri je natančnost nevronskih označevalnikov na ravni lematizacije in oblikoskladenjskega označevanja mogoče izboljšati z integracijo leksikona besednih oblik. 

Prepoznavanje tipičnih drevesnih struktur v skladenjsko razčlenjenih korpusih
Razvijte orodje za prepoznavanje tipičnih struktur, npr. poddreves, v drevesih, ki jih dobimo iz skladenjsko razčlenjenih stavkov. Orodje preizkusite na skladenjsko razčlenjenem korpusu in za slovenščino primerjajte tipičnost struktur glede na primerjalni korpus.


Priprava orodij za obdelavo slovenščine  / Improvement of language tools for Slovene

Dvigniti želimo nivo in uporabnost avtomatske obdelave slovenskega jezika. V ta namen bomo nekaj orodij, ki so jezikovno dokaj neodvisna, prilagodili za slovenski jezik na osnovi velikih zbirk besedil (korpusov), ki jih imamo na razpolago. Posamezna naloga obsega prilagoditev enega od orodij, npr. vključitev slovenskega jezika v okolje R, podpora slovenščini v python knjižnici NLTK, nadgradnja paketa v Rju ali vgradnja slovenskih jezikovnih orodij v Language Tool.