Prepoznavanje idiomatskih besednih zvez z uporabo besednih vložitev

  • Tadej Škvorc Univerza v Ljubljani, Fakulteta za računalništvo in informatiko, Večna pot 113, Ljubljana, Slovenija
  • Marko Robnik-Šikonja Univerza v Ljubljani, Fakulteta za računalništvo in informatiko, Večna pot 113, Ljubljana, Slovenija
Ključne besede: večbesedni izrazi, obdelava naravnega jezika, besedilno rudarjenje, vektorske vložitve besed

Izvleček

Prisotnost idiomov v besedilu povzroča probleme številnim pristopom na področju obdelave naravnega jezika, saj jih računalniki težko prepoznajo. Strojno prepoznavanje takšnih izrazov še ni rešen problem. V zadnjih letih so se razvile številne metode, ki lahko prepoznajo različne pomene besed glede na njihovo okolico in na podlagi tega zgradijo kontekstne vektorske vložitve besed. Takšne vložitve bi morale biti primerne za zaznavanje idiomov. Trenutni pristopi ali ne uporabljajo vektorskih vložitev, ali pa uporabljajo ne-kontekstne vložitve. V delu pokažemo, kako lahko uporabimo kontekstne vložitve besed za ločevanje med dobesedno in idiomatsko rabo besed. Pokažemo, da lahko z različnimi značilkami (npr., s kontekstualnimi vektorji in razdaljami do srednjih kontekstualnih vektorjev za vsako besedo) zaznamo idiome prisotne v korpusu anglešikh besedil GloWbE.

Objavljeno
2019-09-27
Sekcija
Kratki znanstveni prispevki