Strojna analiza tematik in sentimenta slovenskih novičarskih medijev

Avtorji

  • Jan Bajt Fakulteta za računalništvo in informatiko
  • Marko Robnik-Šikonja Fakulteta za računalništvo in informatiko

DOI:

https://doi.org/10.31449/upinf.159

Ključne besede:

analiza sentimenta, latentna Dirichletova alokacija, modeliranje tematik, model BERT, obdelava naravnega jezika, slovenski noviˇcarski mediji

Povzetek

V delu primerjamo slovenske novičarske medije s pomočjo analize tematik in sentimenta člankov. Analizirali smo različna stališča sedmih slovenskih medijev do specifičnih dogodkov oziroma tematik v letih 2019 in 2020. Tematike smo modelirali dvofazno z modelom LDA, s katerim smo v množici spletnih člankov poiskali nekaj posameznih tematik. Za nalogo zaznavanja sentimenta smo prilagodili velik vnaprej naučen slovenski maskirni jezikovni model SloBERTa in ga uporabili pri klasifikaciji izbranih člankov v enega izmed treh razredov (pozitivnega, nevtralnega ali negativnega). V množici izbranih tematik smo opazili precejšnje razlike med mediji v pogostosti in sentimentu poročanja.

Objavljeno

04.05.2022

Kako citirati

[1]
Bajt, J. in Robnik-Šikonja, M. 2022. Strojna analiza tematik in sentimenta slovenskih novičarskih medijev. Uporabna informatika. 30, 1 (maj 2022). DOI:https://doi.org/10.31449/upinf.159.

Številka

Rubrike

Znanstveni prispevki