27 апреля 2025, 14:37

Создан программный комплекс распознавания речи для карельского языка

Технология позволит переводить устную карельскую речь в режиме реального времени
Женщина работает за компьютером, сиды за столом.
Фото: wavebreakmedia_micro / Freepik

Ученые создали программный комплекс распознавания речи для карельского языка (ливвиковского наречия) по аудиоматериалам. По сообщению сайта ПетрГУ, совместную работу провели специалисты Санкт-Петербургского исследовательского центра РАН их коллеги из Карельского научного центра РАН.

Созданная технология в перспективе позволит переводить устную речь в режиме реального времени.

По оценкам ученых, в настоящее время на карельском языке говорят около 30 тысяч человек, из которых порядка 25 тысяч проживают в России. Но в повседневной жизни карельский язык используют лишь 5-7 тысяч, что ставит его под угрозу исчезновения. Разработка направлена на документирование и сохранение карельского языка.

Ученые отмечают, что карельский язык является малоресурсным, то есть для него существует крайне мало электронных данных — текстов, аудиозаписей, словарей, — что осложняет создание системы распознавания речи.

Обучение нейросетей проводили на базе данных карельского языка, в основу которой легли материалы карельских периодических изданий, текстов на ливвиковском наречии из открытого корпуса вепсского и карельского языков ВепКар, а также ряда других открытых письменных источников.

Разработанная система может применяться для автоматического стенографирования речи на карельском языке, например, для расшифровки аудиоархивов и устной речи, в том числе для лингвистических исследований, что должно способствовать сохранению и дальнейшему исследованию карельского языка. © «Петрозаводск говорит»