Лингвистичен хомункулус как да спасим застрашените езици в мрежата, списание Popular Mechanics

Българският език, както онлайн, така и офлайн, заема доста достойно осмо място сред най-големите. Благодарение на широкото навлизане на интернет в България го говорят общо 103 милиона потребители – почти 3% от общия им брой в света. Само българоезичната Wikipedia има почти 1,4 милиона страници, а от 10 милиона най-посещавани сайтове 6,4% са написани на български език. Всичко това създава внушителна база данни от текстове, които съществуват паралелно на български и други основни езици. И ви позволява да използвате стандартни, статистически подходи за създаване на системи за машинен превод между такива езикови двойки.

Идентични статии във версиите на Уикипедия на различни езици, преводи на религиозни канони и класически литературни произведения се допълват от колосално количество нов материал. Такива страници често се откриват лесно по заглавия на документи, които могат да се различават само по RU или ENG. И ако вземете предвид характерните последователности от специални знаци, редки думи, числа и други характеристики, тогава можете автоматично да допълвате оригиналния набор с още по-голям брой паралелни текстове. Не е изненадващо, че това се прави главно от големи интернет компании, търсачки, които индексират много милиарди страници на различни езици.

Разработчиците на IBM Research обаче поставиха основата на съвременния статистически подход. Още през 80-те години те работиха с набор от документи от канадския парламент, които задължително се превеждат на английски и френски, и предложиха текст на един език да се счита за получен чрез много шумен канал - и следователно, "с грешки" - текст на друг език. В такъв модел на "шумен канал" оригиналните фрази изискватправете корекция след корекция, докато се превърнат в подобни фрази, които вече са на новия език.

Това се прави въз основа на статистически данни за паралелното използване на думи в едни и същи фрази на различни езици. В същото време системата може да вземе предвид правилата на морфологията (формирането и промяната на думите) и синтаксиса (конструкцията на изреченията), а качеството на машинния превод се проверява от хората, докато достигне приемливо ниво. „И зелюците изсумтяха като мумсики в движение“, интерпретира оригиналния текст системата за онлайн превод на Google; прави впечатление, че паралелните фрази на английски и български са познати на машината и това е най-простият вариант.

Застрашена

Не винаги е възможно да се определи какви са езиците и да се отделят от диалектите, така че дори точният брой на човешките езици вероятно не е взет. Конвенционалните оценки варират от 6000 до 7000, като Атласът на ЮНЕСКО за застрашени езици подчертава 2473 от тях, чието съществуване в бъдеще изобщо не е гарантирано. Циганският и ерзя, идишът и кримският татарски практически не се овладяват от по-младите поколения, говорещите им застаряват, употребата им намалява.

01 Килдин Сами

05 ненецки (горски диалект)

21 Таз диалект

04 Енец (горски диалект)

16 алеутски (източен диалект)

01 Бабин Сами

06 камасин тюркски

Експертите на ЮНЕСКО идентифицират девет фактора, които определят заплахата от изчезване за даден език. В допълнение към намаляването на броя на носителите на езика, те включват ограничените материали, необходими за изучаване и използване на езика, било то книги, печатни медии или уебсайтове. Това също поставя трудна бариера пред създателите на системи за машинапревод не само от застрашени, но просто от малки езици, като чувашки или адигски. Милионите примери, необходими за обучение на компютърни алгоритми, просто не могат да бъдат намерени.

„Тук решихме, че езиците могат да се разглеждат не като отделни системи, изолирани един от друг, а като се вземат предвид техните връзки помежду си“, ни каза Антон Дворкович, разработчик на групата за машинен превод Yandex. - Оказва се, че ако искаме да изградим превод за език, за който няма достатъчно данни, тогава трябва да се обърнем към по-голям сроден език или към близък, вече „овладян“ от машината. Лексика, морфология, синтаксис – от него са заимствани отделни елементи, за да запълнят „празните“ в малкия езиков модел.

В системата, изградена от Антон и колегите му, ядрото за превод се съставя на базата на онези текстове на малък език, които могат да бъдат намерени. Сравнявайки паралелни фрази, обикновено е възможно да се идентифицират значенията на ключовите думи и техните форми, особеностите на употреба в определен контекст, някои правила на морфологията и т.н. След това към тях се „свързват“ готови модели на сродни езици: единият може да заимства принципите на образуване на множествено число, другият може да заеме склонението или значението на дума, която не се среща в основните текстове, но близка и т.н.

Използвайки нов подход, Yandex започна да създава двигатели за машинен превод за малки български езици. „Jabberglot nergen ludyn, ergym! Tudyn yanlyk da tyge svirlep, ”е на езика на Meadow Mari, в допълнение към който системата вече е усвоила планински мари и удмурт, идиш и башкирски. Тя не само използва познати думи, но и модифицира заети думи от сродни езици. Но това е само капка в морето. От хилядите езици в света, огромното мнозинство се говорисамо няколко местни групи и всяка от тях може да бъде застрашена.

Сред регионите на света, които са особено богати на такива застрашени езици, са централната и източната част на българския Сибир. От 50-те години на миналия век тук са изчезнали около дузина езици и още няколко десетки се готвят да споделят тази съдба през следващите години.

Не може да се каже, че останалият свят не забелязва притесненията на професионалните лингвисти. Google по собствена инициатива подкрепя проекта за застрашени езици, който събира данни за застрашени езици. Услугата Microsoft Translator Hub позволява на всеки ентусиаст да изгради и обучи своя собствена система за превод, използвайки предварително дефинирани софтуерни модули.

Въпреки това, докато се изпълняват такива „хуманитарни“ проекти, броят на естествените говорещи много малки езици продължава да намалява, някои се говорят от не повече от няколко души по света. В миналото такива езици биха били обречени, като стотици предшественици, които вече са потънали в историята. Но днес системи за машинен превод като тази, разработена от Yandex, могат да бъдат неочаквано спасение за тях. Докато има някакви текстове на такива езици, докато има отделни хора, които ги говорят, остава възможно създаването на „изкуствен носител“ - машинна система, която, въпреки че не разбира значението на речта, е способна да използва съвсем адекватно думи, които скоро никой няма да знае.

Остава да допълним системата с функциите за анализ и синтез на реч, гласов вход-изход - и ще получим почти жив "езиков хомункул", изкуствено същество, подобно на истински носител. С такъв "голем" ще бъде възможно да се говори напълно, тъй като много "комуникират" с електронни гласови асистенти Siri или Cortana. отСпоред ръководителя на групата за машинен превод Yandex Сергей Губанов нищо не е невъзможно от тази гледна точка и единственият въпрос са ресурсите: „Автоматичен превод и чат бот, разпознаване и синтез на реч - през 2017 г. всичко това е обща реалност. В случая с малките езици проблемът е да се научите как да работите в условия на сериозна липса на данни. Но в тази посока напоследък постигнахме много добър напредък.”