Razpoznavanje slovenskega govora z metodami globokih nevronskih mrež

  • Matej Ulčar Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
  • Simon Dobrišek Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
  • Marko Robnik-Šikonja Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
Ključne besede: strojno učenje, globoke nevronske mreže, razpoznavanje govora, govorne tehnologije, obdelava naravnega jezika

Izvleček

V zadnjem času se na področju samodejnega razpoznavanja govora uveljavljajo globoke nevronske mreže, ki nadomeščajo akustično modeliranje z uporabo HMM in GMM modelov ter n-grame za jezikovni model. Za razpoznavanje govorjene slovenščine smo izdelali in preizkusili več arhitektur časovno zakasnjenih nevronskih mrež in nevronskih mrež z dolgim kratkoročnim spominom na akustičnem in jezikovnem modelu v sistemu Kaldi. Razpoznavalnik smo učili na obširnem besednjaku, ki vsebuje približno milijon različnih besed. Najboljše rezultate smo dosegli s časovno zakasnjenimi nevronskimi mrežami, kjer smo dosegli 27,16% napako po kriteriju WER. Preliminarni rezultati kažejo boljšo natančnost v primerjavi z Googlovim speech-to-text modelom, vendar pa je potrebno več dodatnega testiranja za zanesljivo primerjavo.

Objavljeno
2019-09-27
Sekcija
Znanstveni prispevki