Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība (LATE)

Gads 2022 Dec–2024 Dec
Finansējums Valsts pētījumu programma
Letonika latviskas un eiropeiskas sabiedrības attīstībai
VPP-LETONIKA-2021/1-0006
Partneri LU Latviešu valodas institūts, Liepājas Universitāte, LU Humanitāro zinātņu fakultāte, LU Literatūras, folkloras un mākslas institūts
Kopsavilkums Projekta “Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība” (LATE) mērķis ir veikt mūsdienu latviešu valodas fonētiskās, gramatiskās, leksiskās sistēmas, kā arī latviešu zīmju valodas izpēti, izmantojot datos balstītas metodes un attīstot ilgtspējīgus latviešu valodas resursus un rīkus. Projektā tiek attīstīta digitālā infrastruktūra valodas pētniecībai un tiek veidoti jauni un papildināti esošie valodas resursi: latviešu valodas runas korpuss, latviešu zīmju valodas paraugkorpuss, leksiskā datubāze Tēzaurs.lv un “Mūsdienu latviešu valodas vārdnīca”. Veicot datos balstītus latviešu valodas pētījumus, tiek pilnveidots gramatiski marķētais latviešu valodas korpuss un fonētiski fonoloģiskās sistēmas apraksts. Izveidotos un pilnveidotos resursus paredzēts iekļaut vienotajā latviešu valodas digitālās pētniecības infrastruktūrā CLARIN-LV un izmantot runas transkribēšanas, pēcrediģēšanas un subtitrēšanas platformas LATE izstrādē.
Mājaslapa http://www.digitalhumanities.lv/projects/vpp-late/

Publikācijas

L. Rituma, G. Nespore-Berzkalne, B. Saulite, L. Pretkalnina
Vārdkopas analogi „Latviešu valodas sintaktiski marķētajā korpusā”
Valoda: nozīme un forma (Analogue of subordinate phrase in Latvian Treebank), 156-173, 2023
PDF, DOI, BibTeX
L. Lauze and I. Auzina
Korpusu un individuālā vākuma salīdzinājums: ģenitīva un nominatīva konkurence saistījumā ar adverbu
Valoda: nozīme un forma (A comparison of corpora and individual collection: Genitive and nominative competition in connection with an adverb), 12, 111-125, 2023
PDF, DOI, BibTeX
L. Pretkalnina
Formāls latviešu valodas gramatikas modelis un tā realizācija mašīnlasāmā sintakses korpusā
2023
PDF, BibTeX
M. Grasmanis, P. Paikens, L. Pretkalnina, L. Rituma, L. Strankale, A. Znotins, N. Gruzitis
Tēzaurs.lv – the experience of building a multifunctional lexical resource
Electronic lexicography in the 21st century (eLex 2023): Invisible Lexicography. Proceedings of the eLex 2023 conference, Lexical Computing CZ s.r.o., 2023
PDF, BibTeX
I. Skadina, I. Auzina, R. Dargis, E. Lasmanis, A. Voitkans
CLARIN-LV: Many Steps till Operation
CLARIN Annual Conference Proceedings, 2022
PDF, BibTeX
B. Saulite, R. Dargis, N. Gruzitis, I. Auzina, K. Levane-Petrova, L. Pretkalnina, L. Rituma, P. Paikens, A. Znotins, L. Strankale et al.
Latvian National Corpora Collection – Korpuss.lv
Proceedings of the 13th Language Resources and Evaluation Conference (LREC), 2022
PDF, BibTeX
R. Dargis, I. Auzina, I. Kaija, K. Levane-Petrova, K. Pokratniece
LaVA – Latvian Language Learner corpus
Proceedings of the 13th Language Resources and Evaluation Conference (LREC), 2022
PDF, BibTeX
P. Paikens, M. Grasmanis, A. Klints, I. Lokmane, L. Pretkalnina, L. Rituma, M. Stade, L. Strankale
Towards Latvian WordNet
Proceedings of the 13th Language Resources and Evaluation Conference (LREC), 2022
PDF, BibTeX