Semantični analizator – razvoj programskega okolja za algoritmično obdelavo slovenskih besedil

Miha Jesenko; Miro Lozej; Karmen Kern Pipan; Primož Godec; Vesna Tanko; Lan Žagar; Ajda Pretnar Žagar; Nikola Đukić; Blaž Zupan

doi:10.31449/upinf.156

Avtorji

Miha Jesenko Ministrstvo za javno upravo
Miro Lozej
Karmen Kern Pipan Ministrstvo za javno upravo
Primož Godec Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
Vesna Tanko Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
Lan Žagar Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
Ajda Pretnar Žagar Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
Nikola Đukić Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
Blaž Zupan Univerza v Ljubljani, Fakulteta za računalništvo in informatiko

DOI:

https://doi.org/10.31449/upinf.156

Ključne besede:

semantična analiza podatkov, podatkovni prostori, analiza besedil, analitika z vizualizacijami, delotoki

Povzetek

Uslužbenci in funkcionarji v javni upravi se dnevno srečujejo s številnimi obsežnimi dokumenti, ki jih je treba pregledati in uporabiti glede na informacijske zahteve konkretne naloge. To velja pri pripravi odločitev, pripravi zakonodaje in politik, pregledovanju zakonodaje in politik, ocenjevanju učinkov zakonodaje in politik, pri raznih analizah, pri opisovanju podatkovnih virov in storitev ter pri številnih drugih nalogah. Ker pregledovanje množice dokumentov in izbor uporabnih dokumentov glede na naše potrebe pomeni velik časovni vložek, smo oblikovali pristop na podlagi umetne inteligence za vsebinsko pregledovanje velikih zbirk besedil. Pristop s semantično analizo besedil ter primerjavo vsebinske sorodnosti med posameznimi besedili v zbirki omogoča časovni prihranek in celovito analizo zbirk. V prispevku predstavimo prve rezultate projekta, v katerem razvijamo splošno uporabno orodje za analizo množice besedilnih dokumentov. Cilj projekta je izbor in implementacija gradnikov semantične analize, s kombinacijo katerih lahko izvajamo poljubne tipe analiz dokumentov in gradimo analitične delotoke, ki bi bili lahko uporabni pri tipičnih nalogah, opravilih in storitvah javne uprave. Implementacija vključuje gradnike za dostopanje do podatkovnih prostorov, vložitve dokumentov v vektorske prostore, iskanje podobnih dokumentov, vizualizacijo podatkovnih kart, iskanje karakterističnih pojmov, rangiranje dokumentov glede na semantično podobnost z izbranimi pojmi in urejanje pojmov v ontologije. V članku predstavimo primer uporabe semantičnega povezovanja predlogov vladi z zbirko zakonskih besedil.