Nadaljevalno učenje s superpozicijo v transformerjih
DOI:
https://doi.org/10.31449/upinf.183Ključne besede:
globoko učenje, nadaljevalno učenje, strojno učenje, superpozicija, transformer, klasifikacija besedilPovzetek
V mnogih aplikacijah strojnega učenja se novi podatki nenehno zbirajo, npr. v zdravstvenem varstvu, za vremenske napovedi itd. Raziskovalci si pogosto želijo sistem, ki bi omogočal nadaljevalno učenje novih informacij. To je izjemnega pomeni tudi v primeru, ko vseh podatkov ni mogoče shranjevati v nedogled. Največji izziv pri nadaljevalnem strojnem učenju je težnja nevronskih modelov, da po določenem času pozabijo prej naučene informacije. Da bi zmanjšali pozabljanje modela, naša metoda nadaljevalnega učenja uporablja superpozicijo z binarnimi konteksti, ki zavzemajo zanemarljiv dodaten pomnilnik. Osredotočamo se na nevronske mreže v obliki transformerjev, pri čemer smo naš pristop primerjali z več vidnimi metodami nadaljevalnega učenja na nizu klasifikacijskih nalog obdelave naravnega jezika. V povprečju smo dosegli najboljše rezultate: 4,6% izboljšavo pri ploščini pod krivuljo ROC (angl. AUROC - area under the receiver operating characteristic) in 3,0% izboljšavo pri ploščini pod krivuljo PRC (angl. AUPRC - area under the precision-recall curve).