Razpoznavanje slovenskega govora z metodami globokih nevronskih mrež

Matej Ulčar; Simon Dobrišek; Marko Robnik-Šikonja

doi:10.31449/upinf.53

Avtorji

Matej Ulčar Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
Simon Dobrišek Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
Marko Robnik-Šikonja Univerza v Ljubljani, Fakulteta za računalništvo in informatiko

DOI:

https://doi.org/10.31449/upinf.53

Ključne besede:

strojno učenje, globoke nevronske mreže, razpoznavanje govora, govorne tehnologije, obdelava naravnega jezika

Povzetek

V zadnjem času se na področju samodejnega razpoznavanja govora uveljavljajo globoke nevronske mreže, ki nadomeščajo akustično modeliranje z uporabo HMM in GMM modelov ter n-grame za jezikovni model. Za razpoznavanje govorjene slovenščine smo izdelali in preizkusili več arhitektur časovno zakasnjenih nevronskih mrež in nevronskih mrež z dolgim kratkoročnim spominom na akustičnem in jezikovnem modelu v sistemu Kaldi. Razpoznavalnik smo učili na obširnem besednjaku, ki vsebuje približno milijon različnih besed. Najboljše rezultate smo dosegli s časovno zakasnjenimi nevronskimi mrežami, kjer smo dosegli 27,16% napako po kriteriju WER. Preliminarni rezultati kažejo boljšo natančnost v primerjavi z Googlovim speech-to-text modelom, vendar pa je potrebno več dodatnega testiranja za zanesljivo primerjavo.