Pomenska analiza kategorij sovražnega govora v obstoječih označenih korpusih
DOI:
https://doi.org/10.31449/upinf.151Ključne besede:
žaljivi govor, sovražni govor, obdelava narvnega jezika, vektorske vložitve besedPovzetek
Trenutno je dostopnih mnogo angleških korpusov z označenimi različnimi kategorijami žaljivega govora, različnimi načini označevanja in poimenovanja kategorij. V tem prispevku analiziramo 21 kategorij žaljivega oz. sovražnega govora. Pri tem uporabimo metode obdelave naravnega jezika na sedem različnih korpusih, da lahko odkrivamo korelacije med posameznimi kategorijami. Analizo izvedemo s pomočjo tradicionalnih (TF–IDF) in naprednih (fastText, GloVe, Word2Vec, BERT in ostale globoke metode) tehnik, s katerimi želimo odkriti zakonitosti med posameznimi kategorijami sovražnega govora. Rezultati razkrijejo, da je večina kategorij močno povezana med seboj, vendar lahko kljub temu izdelamo dvonivojsko hierarhično predstavitev povezanosti. Analizo izdelamo tudi za slovenski jezik in primerjamo rezultate za oba izbrana jezika.Prenosi
Objavljeno
04.05.2022
Kako citirati
[1]
Kljun, M., Teršek, M. in Žitnik, S. 2022. Pomenska analiza kategorij sovražnega govora v obstoječih označenih korpusih. Uporabna informatika. 30, 1 (maj 2022). DOI:https://doi.org/10.31449/upinf.151.
Številka
Rubrike
Znanstveni prispevki