Prepoznavanje idiomatskih besednih zvez z uporabo besednih vložitev

Avtorji

  • Tadej Škvorc Univerza v Ljubljani, Fakulteta za računalništvo in informatiko, Večna pot 113, Ljubljana, Slovenija
  • Marko Robnik-Šikonja Univerza v Ljubljani, Fakulteta za računalništvo in informatiko, Večna pot 113, Ljubljana, Slovenija

DOI:

https://doi.org/10.31449/upinf.63

Ključne besede:

večbesedni izrazi, obdelava naravnega jezika, besedilno rudarjenje, vektorske vložitve besed

Povzetek

Prisotnost idiomov v besedilu povzroča probleme številnim pristopom na področju obdelave naravnega jezika, saj jih računalniki težko prepoznajo. Strojno prepoznavanje takšnih izrazov še ni rešen problem. V zadnjih letih so se razvile številne metode, ki lahko prepoznajo različne pomene besed glede na njihovo okolico in na podlagi tega zgradijo kontekstne vektorske vložitve besed. Takšne vložitve bi morale biti primerne za zaznavanje idiomov. Trenutni pristopi ali ne uporabljajo vektorskih vložitev, ali pa uporabljajo ne-kontekstne vložitve. V delu pokažemo, kako lahko uporabimo kontekstne vložitve besed za ločevanje med dobesedno in idiomatsko rabo besed. Pokažemo, da lahko z različnimi značilkami (npr., s kontekstualnimi vektorji in razdaljami do srednjih kontekstualnih vektorjev za vsako besedo) zaznamo idiome prisotne v korpusu anglešikh besedil GloWbE.

Prenosi

Objavljeno

27.09.2019

Kako citirati

[1]
Škvorc, T. in Robnik-Šikonja, M. 2019. Prepoznavanje idiomatskih besednih zvez z uporabo besednih vložitev. Uporabna informatika. 27, 3 (sep. 2019). DOI:https://doi.org/10.31449/upinf.63.

Številka

Rubrike

Kratki znanstveni prispevki