Razpoznavanje slovenskega govora z metodami globokih nevronskih mrež

Avtorji

  • Matej Ulčar Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
  • Simon Dobrišek Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
  • Marko Robnik-Šikonja Univerza v Ljubljani, Fakulteta za računalništvo in informatiko

DOI:

https://doi.org/10.31449/upinf.53

Ključne besede:

strojno učenje, globoke nevronske mreže, razpoznavanje govora, govorne tehnologije, obdelava naravnega jezika

Povzetek

V zadnjem času se na področju samodejnega razpoznavanja govora uveljavljajo globoke nevronske mreže, ki nadomeščajo akustično modeliranje z uporabo HMM in GMM modelov ter n-grame za jezikovni model. Za razpoznavanje govorjene slovenščine smo izdelali in preizkusili več arhitektur časovno zakasnjenih nevronskih mrež in nevronskih mrež z dolgim kratkoročnim spominom na akustičnem in jezikovnem modelu v sistemu Kaldi. Razpoznavalnik smo učili na obširnem besednjaku, ki vsebuje približno milijon različnih besed. Najboljše rezultate smo dosegli s časovno zakasnjenimi nevronskimi mrežami, kjer smo dosegli 27,16% napako po kriteriju WER. Preliminarni rezultati kažejo boljšo natančnost v primerjavi z Googlovim speech-to-text modelom, vendar pa je potrebno več dodatnega testiranja za zanesljivo primerjavo.

Prenosi

Objavljeno

27.09.2019

Kako citirati

[1]
Ulčar, M., Dobrišek, S. in Robnik-Šikonja, M. 2019. Razpoznavanje slovenskega govora z metodami globokih nevronskih mrež. Uporabna informatika. 27, 3 (sep. 2019). DOI:https://doi.org/10.31449/upinf.53.

Številka

Rubrike

Znanstveni prispevki