Создан программный комплекс распознавания речи для карельского языка
Ученые создали программный комплекс распознавания речи для карельского языка (ливвиковского наречия) по аудиоматериалам. По сообщению сайта ПетрГУ, совместную работу провели специалисты Санкт-Петербургского исследовательского центра РАН их коллеги из Карельского научного центра РАН.
Созданная технология в перспективе позволит переводить устную речь в режиме реального времени.
По оценкам ученых, в настоящее время на карельском языке говорят около 30 тысяч человек, из которых порядка 25 тысяч проживают в России. Но в повседневной жизни карельский язык используют лишь 5-7 тысяч, что ставит его под угрозу исчезновения. Разработка направлена на документирование и сохранение карельского языка.
Ученые отмечают, что карельский язык является малоресурсным, то есть для него существует крайне мало электронных данных — текстов, аудиозаписей, словарей, — что осложняет создание системы распознавания речи.
Обучение нейросетей проводили на базе данных карельского языка, в основу которой легли материалы карельских периодических изданий, текстов на ливвиковском наречии из открытого корпуса вепсского и карельского языков ВепКар, а также ряда других открытых письменных источников.
Разработанная система может применяться для автоматического стенографирования речи на карельском языке, например, для расшифровки аудиоархивов и устной речи, в том числе для лингвистических исследований, что должно способствовать сохранению и дальнейшему исследованию карельского языка. © «Петрозаводск говорит»