Pomenska analiza kategorij sovražnega govora v obstoječih označenih korpusih

Avtorji

  • Maša Kljun
  • Matija Teršek Student at Faculty of Computer and Information Science
  • Slavko Žitnik

DOI:

https://doi.org/10.31449/upinf.151

Ključne besede:

žaljivi govor, sovražni govor, obdelava narvnega jezika, vektorske vložitve besed

Povzetek

Trenutno je dostopnih mnogo angleških korpusov z označenimi različnimi kategorijami žaljivega govora, različnimi načini označevanja in poimenovanja kategorij. V tem prispevku analiziramo 21 kategorij žaljivega oz. sovražnega govora. Pri tem uporabimo metode obdelave naravnega jezika na sedem različnih korpusih, da lahko odkrivamo korelacije med posameznimi kategorijami. Analizo izvedemo s pomočjo tradicionalnih (TF–IDF) in naprednih (fastText, GloVe, Word2Vec, BERT in ostale globoke metode) tehnik, s katerimi želimo odkriti zakonitosti med posameznimi kategorijami sovražnega govora. Rezultati razkrijejo, da je večina kategorij močno povezana med seboj, vendar lahko kljub temu izdelamo dvonivojsko hierarhično predstavitev povezanosti. Analizo izdelamo tudi za slovenski jezik in primerjamo rezultate za oba izbrana jezika.

Objavljeno

04.05.2022

Kako citirati

[1]
Kljun, M., Teršek, M. in Žitnik, S. 2022. Pomenska analiza kategorij sovražnega govora v obstoječih označenih korpusih. Uporabna informatika. 30, 1 (maj 2022). DOI:https://doi.org/10.31449/upinf.151.

Številka

Rubrike

Znanstveni prispevki