Nadaljevalno učenje s superpozicijo v transformerjih

Marko Zeman; Jana Faganeli Pucer; Igor Kononenko; Zoran Bosnić

doi:10.31449/upinf.183

Authors

Marko Zeman FRI
Jana Faganeli Pucer
Igor Kononenko
Zoran Bosnić

DOI:

https://doi.org/10.31449/upinf.183

Keywords:

deep learning, continual learning, machine learning, superposition, transformer, text classification

Abstract

In many machine learning applications, new data is continuously collected, e.g., in healthcare, for weather forecasting etc. Researchers often want a system that allows for continuous learning of new information. This is extremely important even in the case when not all data can be stored indefinitely. The biggest challenge in continual machine learning is the tendency of neural models to forget previously learned information after a certain time. To reduce model forgetting, our continual learning method uses superposition with binary contexts, which require negligible additional memory. We focus on transformer-based neural networks, comparing our approach with several prominent continual learning methods on a set of natural language processing classification tasks. On average, we achieved the best results: 4.6% and 3.0% boost in AUROC (area under the receiver operating characteristic) and AUPRC (area under the precision-recall curve), respectively.

Author Biographies

Marko Zeman, FRI

Marko Zeman je magistriral iz računalništva in informatike na Univerzi v Ljubljani, Fakulteti za računalništvo in informatiko leta 2020. Trenutno je raziskovalec in doktorski študent na Fakulteti za računalništvo in informatiko v Laboratoriju za kognitivno modeliranje. Njegova raziskovalna zanimanja so predvsem globoko učenje, nevronske mreže in metode nadaljevalnega učenja.

Jana Faganeli Pucer

Jana Faganeli Pucer je docentka na Fakulteti za računalništvo in informatiko. Njeno raziskovalno delo je osredotočeno na strojno učenje, predvsem na aplikacijo metod strojnega učenje v okoljskih znanostih. Več let sodeluje z Agencijo Republike Slovenije za okolje na področju kakovosti zraka.

Igor Kononenko

Igor Kononenko je doktor računalniških znanosti in redni profesor na Fakulteti za računalništvo in informatiko Univerze v Ljubljani ter predstojnik Laboratorija za kognitivno modeliranje. Njegova raziskovalna področja so umetna inteligenca, strojno učenje, nevronske mreže in kognitivno modeliranje. Je (so)avtor 225 člankov na teh področjih ter 13 učbenikov (dve knjigi izšli v Angliji).

Zoran Bosnić

Zoran Bosnic´ je profesor na Fakulteti za računalništvo in informatiko Univerze v Ljubljani. Raziskovalno se ukvarja z umetno inteligenco, zlasti s strojnim učenjem. Osredotoča se pretežno na učenje iz podatkovnih to- kov in na interdisciplinarne aplikacije strojnega učenja. Na tem področju je tudi (so)avtor okoli 70 znanstvenih člankov.