Марийските и планински марийски езици се появиха на одчика


Екипът на Yandex.Translate обяви стартирането на машинен превод за езиците Mari и Mountain Mari. Потребителите вече могат да превеждат думи и фрази от който и да е от тези езици на 86 други и обратно.
Марийският (или ливадно-източният марийски) и планинският марийски, заедно с българския, са държавните езици на Република Марий Ел. Те се говорят и в Башкортостан, Татарстан, Кировска област и някои други региони на България. Въпреки че марийските и планинските марийски езици са сходни, една и съща дума може да звучи напълно различно на тези езици, има разлики в правилата на граматиката и азбуките не съвпадат. Следователно работата по машинни преводи за тези два езика се извършваше паралелно. И двата превода в момента са в бета версия, така че може да има някои грешки.

Работата по създаването на марийско-българския превод се проведе в тясно сътрудничество с регионални организации – Марийския научноизследователски институт за език, литература и история. В.М. Василиев (MarNIYALI) и Републиканския център за марийска култура (RCMC), които предоставиха езикова подкрепа и подготовка на стандартни марийско-български преводи за оценка на качеството на превода. Освен това ръководството на МарНИЯЛИ предостави правата за използване на големия речников запас от Марийско-българския речник, аАндрей Чемишев, заедно с група служители на РЦМК, събра допълнителен корпус от двуезични българо-марийски текстове. Благодарение на тези лексикални ресурси екипът на Yandex.Translate успя значително да увеличи количеството и качеството на данните, използвани за изграждане на статистически модели, и по този начин да подобри окончателното качество на машинния превод.