Diplome in magisteriji
Poleg tem na tej
strani so dobrodošle tudi vaše lastne ideje. Predlagam, da se
oglasite na govorilnih urah ali da se pogovorimo po video
povezavi. Najavite se po elektronski pošti. Moji trenutni
predlogi so povečini raziskovalne naloge s področij strojnega
učenja in obdelave naravnega jezika. Motivacija za praktične
naloge so povečini realni problemi, s katerimi se soočajo
slovenska ali tuja podjetja in organizacije. Naloge so
predlagane za več stopenj študija, vendar bodo dejanska količina
dela, zahtevnost in obseg tematike prilagojeni stopnji študija.
Pri strojnem učenju
je za mnogo problemov poleg dobre napovedne točnosti pomembna
tudi razlaga napovedanih odločitev. Npr. v medicini zdravniki ne
bodo zaupali napovedi globoke nevronske mreže, da je pri nekem
pacientu velika verjetnost srčne aritmije, če jim ne znamo
pojasniti, kako je model prišel do takšne napovedi. Eden od
načinov razlage napovedi modela za dani primer je generiranje
čimbolj podobnega protiprimera, za katerega je klasifikacija
drugačna. Obstoječe načine razlage napovednih modelov s
protiprimeri boste prilagodili za besedila, kjer je generiranje
protiprimerov nekoliko drugačno, in preizkusili na nekaj
klasifikacijskih nalogah.
Globoke nevronske
mreže so trenutno najuspešnejši napovedni model na mnogih
področjih rabe strojnega učenja. Ena njihovih težav je
netransparentnost, ki pa je za nekatera področja ključna.
Obstoječi načine razlage napovednih modelov razlagajo posamezne
odločitve na nivoju vhodnih podatkov (npr. pikslov ali izraza
posameznih genov), kar je za človeka neinformativno. Preizkusili
boste nov pristop, ki bo že med gradnjo napovednega modela z
globokimi nevronskimi mrežami skrbel tudi za usklajenost s
predznanjem in s tem omogočil človeku bolj razumljivo razlago.
Preizkusili boste eno od potencialno zanimivih področij za
tovrstne razlage, kot so genetski podatki v biologiji in
medicini, slike ali jezikovni podatki.
Klasifikacijski
modeli strojnega učenja ločijo med vnaprej definiranimi razredi.
Ti razredi pa večinoma niso monolitni in so sestavljeni iz
podkonceptov, npr. pri napovedovanju okvar pri stroju imajo te
mnogo možnih vzrokov, ki predstavljajo podkoncepte okvar. Želimo
razviti metodo za boljše razumevanje danega problema, ki bo
upoštevala obstoj podkonceptov, česar se obstoječe metode ne
zavedajo. Obstoječe metode za generiranje razlag na nivoju
primerov in celotnega koncepta boste nadgradili s podkoncepti,
ki jih bomo določili glede na dano predznanje ali z gručenjem v
prostoru razlag.
Težava ocenjevanja
atributov na visokodimenzionalnih podatkih je, da so mere
podobnosti primerov, ki temeljijo na razdaljah, nezanesljive.
Težavo želimo odpraviti z bolj zanesljivim določanjem soseščine
atributov, ki temelji na ansamblih algoritmov gručenja. Ti
zmanjšajo varianco podobnosti primerov in bi lahko prispevali k
boljšemu ocenjevanju kakovosti atributov v visokodimenzionalnih
prostorih, ki se pojavljajo npr. v bioinformatiki in pri
senzorjih. Idejo boste preizkusili na nekaj podatkovnih množicah
in jo primerjali z drugimi znanimi metodami za ocenjevanje
atributov.
Veliki nevronski
jezikovni modeli so danes najuspešnejši pristop k večini nalog
obdelave naravnega jezika. Tipično uporabljajo nevronske mreže
tipa transformer in so vnaprej naučeni za različne naoge (npr.
napovedovanje manjkajoče besede) na velikih besedilnih zbirkah.
Z njimi lahko uspešno predstavimo besede in večje besedilne
enote (stavki, odstavku, dokumenti). Predstavitev v nevronski
mreži je v bistvu ekvivalentna preslikavi v
visokodimenzionalni vektorski prostor s pomočjo sonastopanja v
zbirki besedil. Takšne predstavitve ohranijo nekatere semantične
lastnosti besedil, saj se besede s podobnimi pomeni in podobno
rabo predstavljene podobno. Najbolj pogosto se za tako
predstavitev uporabljajo modeli tipa BERT, RoBERTa in GPT,
njihove slovenske inačice SloBERTa in CroSloEngual BERT ali
mnogojezikovne inačice kot sta mBERT in XLM-R. Razvijamo
različne izboljšave trenutnih predstavitev in njihove praktične
uporabe. Za svojo nalogo boste izbrali enega od aktualnih
problemov (nekaj jih je naštetih spodaj) in jih rešili s pomočjo
sodobnih predstavitev jezika. Pristopi lahko naslovijo različne
jezike, čeprav je večina podatkovnih množic, ki jih imamo na
voljo, v angleščini ali slovenščini. Nekaj nalog:
Nekatere od zgoraj
naštetih jezikovnih nalog se lahko rešujejo tudi s prenosom
znanja iz drugih jezikov, tipično angleščine, saj v manjših
jezikih ne obstajajo dovolj velike učne množice, ki bi omogočale
uspešno učenje. Ti pristopi uporabljajo večjezikovne inačice
velikih jezikovni modelov. Izbrali boste enega od zgoraj
naštetih problemov in jih skušali rešiti z medjezikovnim
prenosom modelov strojnega učenja. Kot ciljni jezik boste
uporabili slovenščino ali katerega od drugih jezikov z manj
viri.