Obširna evalvacija komercialnih velikih jezikovnih modelov na področju sklepanja v slovenskem jeziku in slovnice
DOI:
https://doi.org/10.31449/upinf.270Ključne besede:
Veliki jezikovni modeli (VJM), Evalvacija, Analiza slovničnih napak, obdelava naravnega jezikaPovzetek
Uporaba velikih jezikovnih modelov (VJM) se hitro širi tudi v slovenskem prostoru, vendar je njihova dejanska zmogljivost za slovenski jezik še vedno slabo sistematično ovrednotena. V tem članku predstavljamo obširno primerjalno evalvacijo najpogosteje uporabljanih komercialnih in odprtih VJM v kontekstu slovenščine. V evalvacijo smo vključili modele štirih večjih ponudnikov (OpenAI, Google, Anthropic in Mistral) ter domača modela GaMS-27B-Instruct ter GaMS3-12B-Instruct in jih ovrednotili z raznolikim naborom učnih množic, ki preverjajo sposobnosti sledenja navodilom, razumsko sklepanje, zanesljivost odgovorov, slovnične kompetence ter koherentnost besedila. Uporabili smo prevedene standardizirane primerjalne naloge (npr. ARC, HellaSwag, TruthfulQA, GSM8K), specializirano množico za slovnične napake DASSLE 1.0 ter nabor resničnih pogovorov Slovenske pogovorne arene. Rezultati kažejo, da sodobni komercialni modeli dosegajo visoko uspešnost pri nalogah razumevanja in sklepanja v slovenskem jeziku, zlasti GPT-5.1 z visokim nivojem premišljanja in Gemini-2.5-Pro, medtem ko odprti modeli, kot je Mistral Large 3 kljub omejenim virom dosegajo konkurenčne rezultate. Nasprotno pa evalvacija slovnične kompetence razkriva, da ostaja morfološka in skladenjska kompleksnost slovenskega jezika velik izziv za vse obravnavane modele. Članek s tem nudi celovit vpogled v trenutno stanje zmogljivosti VJM za slovenščino.
Prenosi
Objavljeno
Številka
Rubrika
Licenca
Avtorske pravice (c) 2026 Uporabna informatika

To delo je licencirano pod Creative Commons Priznanje avtorstva 4.0 mednarodno licenco.



