Obširna evalvacija komercialnih velikih jezikovnih modelov na področju sklepanja v slovenskem jeziku in slovnice

Miha Malenšek; Domen Vreš; Marko Bajec

doi:10.31449/upinf.270

Avtorji

Miha Malenšek Univerza v Ljubljani, Fakulteta za računalništvo in informatiko https://orcid.org/0009-0004-6941-2203
Domen Vreš Univerza v Ljubljani, Fakulteta za računalništvo in informatiko https://orcid.org/0000-0002-9225-2699
Marko Bajec Univerza v Ljubljani, Fakulteta za računalništvo in informatiko https://orcid.org/0000-0002-8502-6765

DOI:

https://doi.org/10.31449/upinf.270

Ključne besede:

Veliki jezikovni modeli (VJM), Evalvacija, Analiza slovničnih napak, obdelava naravnega jezika

Povzetek

Uporaba velikih jezikovnih modelov (VJM) se hitro širi tudi v slovenskem prostoru, vendar je njihova dejanska zmogljivost za slovenski jezik še vedno slabo sistematično ovrednotena. V tem članku predstavljamo obširno primerjalno evalvacijo najpogosteje uporabljanih komercialnih in odprtih VJM v kontekstu slovenščine. V evalvacijo smo vključili modele štirih večjih ponudnikov (OpenAI, Google, Anthropic in Mistral) ter domača modela GaMS-27B-Instruct ter GaMS3-12B-Instruct in jih ovrednotili z raznolikim naborom učnih množic, ki preverjajo sposobnosti sledenja navodilom, razumsko sklepanje, zanesljivost odgovorov, slovnične kompetence ter koherentnost besedila. Uporabili smo prevedene standardizirane primerjalne naloge (npr. ARC, HellaSwag, TruthfulQA, GSM8K), specializirano množico za slovnične napake DASSLE 1.0 ter nabor resničnih pogovorov Slovenske pogovorne arene. Rezultati kažejo, da sodobni komercialni modeli dosegajo visoko uspešnost pri nalogah razumevanja in sklepanja v slovenskem jeziku, zlasti GPT-5.1 z visokim nivojem premišljanja in Gemini-2.5-Pro, medtem ko odprti modeli, kot je Mistral Large 3 kljub omejenim virom dosegajo konkurenčne rezultate. Nasprotno pa evalvacija slovnične kompetence razkriva, da ostaja morfološka in skladenjska kompleksnost slovenskega jezika velik izziv za vse obravnavane modele. Članek s tem nudi celovit vpogled v trenutno stanje zmogljivosti VJM za slovenščino.

Biografije avtorja

Miha Malenšek, Univerza v Ljubljani, Fakulteta za računalništvo in informatiko

Miha Malenšek je raziskovalec in doktorski študent na Fakulteti za računalništvo in informatiko, Univerze v Ljubljani, zaposlen v Laboratoriju za podatkovne tehnologije. V svojem delu se ukvarja predvsem s podpornimi sistemi za varno in sledljivo uporabo VJM v domenah, kjer je zanesljiva in preverljiva uporaba VJM ključnega pomena.
Domen Vreš, Univerza v Ljubljani, Fakulteta za računalništvo in informatiko

Domen Vreš je raziskovalec in doktorski študent na Fakulteti za računalništvo in informatiko, Univerze v Ljubljani, zaposlen v Laboratoriju za strojno učenje in jezikovne tehnologije. V svojem delu se ukvarja predvsem z učenjem VJM za slovenski jezik, GaMS (Generativni Model Slovenščine).
Marko Bajec, Univerza v Ljubljani, Fakulteta za računalništvo in informatiko

Marko Bajec je redni profesor na Fakulteti za računalništvo in informatiko Univerze v Ljubljani ter vodja Laboratorija za podatkovne tehnologije in IoT Demo Centra. Predava več predmetov s področja informatike in podatkovnih baz. V okviru aplikativnega in raziskovalnega dela se ukvarja z obvladovanjem informatike ter uporabo podatkovnih tehnologij v okviru različnih domen, kot so internet stvari, pametna mesta, pametni domovi, oskrbovana stanovanja, telemedicina ipd.