В Марий Эл работают над параллельным корпусом марийского языка, который улучшит качество машинного перевода

Март 22, 2021

В 2016 году в “Яндекс.Переводчике” появился марийский язык, но качество машинного перевода до сих пор оставляет желать лучшего. Лингвисты и языковые активисты планируют это исправить, а затем добавить эту функцию и в переводчик Google.

Сотрудник Марийского института языка, литературы и истории Андрей Чемышев поделился своими планами по созданию корпуса параллельных текстов на марийском и русском языках на 1 миллион предложений. Этот корпус можно будет использовать для эффективного обучения программ машинного перевода.

В посте на своей странице "ВКонтакте" лингвист призвал на помощь волонтеров — для обработки такого объема текстов институту не хватает рабочих рук. Поучаствовать могут не только носители марийского языка — помощь нужна и с вычиткой русскоязычных переводов марийских текстов, которые прошли автоматическое распознавание.

— Одно время я жил в Сыктывкаре, занимался коми языком, но решил вернуться в родную республику, потому что марийский стал сильно отставать в сфере IT. Полгода я сидел без работы, а потом при Республиканском центре марийской культуры создали специальный отдел. Помещение для работы нам любезно предоставил покойный директор МарНИИЯЛИ Александр Казимов. Нам тогда сказали: "За полгода надо сделать какой-нибудь реальный проект в сфере языка и IT, иначе вас разгонят". Мы и сделали — собрали корпус параллельных текстов на марийском и русском на 250-300 тысяч предложений и отправили это в "Яндекс". Его подключили к "Яндекс.Переводчику", с тех пор там есть опция перевода на марийский и с марийского, но она пока плохо работает: отдельные слова переводятся хорошо, но со сложными предложениями часто получается что-то бессмысленное.

Мы с самого начала планировали постепенно расширять корпус и улучшать качество перевода, но в "Яндексе" сменился начальник отдела, который отвечал за перевод, и у компании пропал интерес к языкам народов России — всё внимание перенаправили на русский и английский. Мы расстроились, на какое-то время тоже перестали заниматься переводчиком и стали вместо этого делать другой корпус на 20 миллионов словоупотреблений с морфологической разметкой, но без параллельных русских текстов — это полезно для лингвистов, но не подходит для программ машинного перевода.

Сейчас у нас появилась идея вернуться к старому параллельному корпусу и расширить его в несколько раз. Это качественно улучшит возможности программ по переводу и приблизит то, что они выдают, к грамотной марийской речи. Если мы сделаем такой корпус и опубликуем его в открытом доступе, этим смогут воспользоваться "Яндекс", Google, Abby и другие компании, создающие языковые инструменты. На данный момент со мной в проекте работают всего двое — народный поэт Марий Эл Геннадий Сабанцев и Анжелика Митрускова, и мы будем рады волонтерам, желающим пополнить нашу небольшую команду. Помощь нужна разная, есть и не очень времязатратные задания, не требующие специальной подготовки, — рассказал Андрей Чемышев.

❌Если ваш провайдер заблокировал наш сайт, скачайте приложение RFE/RL на свой телефон или планшет (Android здесь,iOS здесь) и, выбрав в нём русский язык, выберите Idel.Реалии. Тогда мы всегда будем доступны!

❗️А еще подписывайтесь на наш канал в Telegram.

Ссылки для упрощенного доступа

Присоединяйтесь!

В Марий Эл работают над параллельным корпусом марийского языка, который улучшит качество машинного перевода

This item is part of