Semantic analysis of offensive language categories from existing annotated corpora

Maša Kljun; Matija Teršek; Slavko Žitnik

doi:10.31449/upinf.151

Avtorji

Maša Kljun
Matija Teršek Student at Faculty of Computer and Information Science
Slavko Žitnik

DOI:

https://doi.org/10.31449/upinf.151

Ključne besede:

žaljivi govor, sovražni govor, obdelava narvnega jezika, vektorske vložitve besed

Povzetek

Trenutno je dostopnih mnogo angleških korpusov z označenimi različnimi kategorijami žaljivega govora, različnimi načini označevanja in poimenovanja kategorij. V tem prispevku analiziramo 21 kategorij žaljivega oz. sovražnega govora. Pri tem uporabimo metode obdelave naravnega jezika na sedem različnih korpusih, da lahko odkrivamo korelacije med posameznimi kategorijami. Analizo izvedemo s pomočjo tradicionalnih (TF–IDF) in naprednih (fastText, GloVe, Word2Vec, BERT in ostale globoke metode) tehnik, s katerimi želimo odkriti zakonitosti med posameznimi kategorijami sovražnega govora. Rezultati razkrijejo, da je večina kategorij močno povezana med seboj, vendar lahko kljub temu izdelamo dvonivojsko hierarhično predstavitev povezanosti. Analizo izdelamo tudi za slovenski jezik in primerjamo rezultate za oba izbrana jezika.