Biežākās kļūdas latviešu valodā: korpusā balstīta kļūdu analīze un teksta labošana (Norma)

Gads 2024 Jan–2026 Dec
Finansējums Latvijas Zinātnes padome
Fundamentālo un lietišķo pētījumu projekti
lzp-2023/1-0481
Kopsavilkums Projekta mērķis ir izveidot daļēji automātiski marķētu latviešu valodas kā dzimtās valodas runātāju kļūdu korpusu, kurā tiks dokumentētas, labotas un skaidrotas biežākās latviešu valodas kļūdas. Korpusa izveides metodika un dati ļaus analizēt, kā šādas kļūdas ietekmē latviešu valodas gramatisko sistēmu, un, apkopojot un sistematizējot biežāk sastopamās kļūdas, izstrādāt mūsdienīgus, korpusā balstītus ieteikumus rakstu valodas kvalitātes uzlabošanai. Kļūdu korpuss tiks izmantots, lai izstrādātu pilnīgāku gramatikas pārbaudītāju, kas norāda ne tikai uz tehniskām neprecizitātēm un vienkāršākām pareizrakstības vai interpunkcijas kļūdām, bet arī uz teikuma konstrukciju izveides kļūdām.

Publikācijas

R. Dargis, G. Barzdins, I. Skadina, N. Gruzitis, B. Saulite
Evaluating Open-Source LLMs in Low-Resource Languages: Insights from Latvian High School Exams
Proceedings of the 4th International Conference on Natural Language Processing for Digital Humanities, Association for Computational Linguistics, 2024
PDF, BibTeX