Електронен корпус на хакаския език

Електронният корпус на хакаския език е създаден в рамките на програмата на Президиума на Руската академия на науките „Корпусна лингвистика“, направление „Създаване и развитие на корпусни ресурси за езиците на народите на България“ (по-подробно); в момента се подкрепя от грант на Руската хуманитарна фондация № 15-04-12030 „Система за автоматичен морфологичен и синтактичен анализ на корпусите на малцинствените тюркски езици в България“ и Програмата на Института по физика и наука на Руската академия на науките „Евразийското наследство и неговите съвременни значения“, Направление 4. Мултимедийни технологии във филологическите изследвания (проекти „Развитие на корпуси на второстепенни езици“ ити тюркски езици в България“), както и с подкрепата на проекта „Етнокултурното многообразие на Южен Сибир в синхрония и диахрония: взаимодействие на езици и култури“, осъществен на базата на Томския държавен университет (грант на правителството на България № 14.Y26.31.0014). А.В. Дибо (доктор на филологическите науки, член-кореспондент на Руската академия на науките, ръководител на отдела за урал-алтайски езици на Института по лингвистика на Руската академия на науките) е един от координаторите на това направление и ръководи проекта на „Корпус на малцинствените тюркски езици“ (съръководител: Н. Н. Широбокова, доктор на филологическите науки, професор, ръководител на отдела за езици на народите на Си Берия от Института по филология на Сибирския клон на Руската академия на науките).

Основните изпълнители на проекта, работещи върху корпуса на хакасския език:

  • Шеймович Александра Валериевна, младши научен сътрудник Институт по лингвистика RAS
  • Чебодаева Лариса Илинична, д-р, гл. кафене Институт по саяно-алтайска тюркология, Хакаски държавен университет
  • Киржинакова Елвира Валериевна, кандидат на филологическите науки, младши научен сътрудник ХАКНИЯЛИ
  • Малцева Вера Сергеевна и други участници в хакаската експедиция на Руския държавен хуманитарен университет 2001, 2002, 2007 г.
  • Крилов Филип Сергеевич, програмист в Центъра за сравнителни изследвания към Института за ориенталски култури и древност на Руския държавен хуманитарен университет.

На територията на Българияголям брой (и, може да се каже, повечето) от тюркските езици са широко разпространени. Някои от тези езици имат официален статут и литературна традиция, тоест има значителен брой текстове на тези езици. За малките тюркски езици и диалекти е натрупан значителен текстов материал - записи на фолклор, полеви записи на изследователи (включително участници в този проект) и др. Значителна част от тези езици, особено техните диалекти, в момента са под заплаха от изчезване. Необходимо е съществуващият обем от материали да се компютъризира и да се осигури общ достъп до тях, т.е. създаване на отворен корпус на тюркските езици на България. Отвореността на корпуса трябва да осигури не само по-нататъшното изучаване на тези езици, но и да допринесе за тяхното запазване и развитие.

В рамките на проекта се предвижда изработването на паралелни корпуси (всички текстове са снабдени с български превод) с морфологично (по-късно и синтактично) маркиране.

Материалът за корпуса на хакаския език е предимно паралелни (хакаско-български) литературни текстове от художествения жанр и епически текстове, дигитализирани и редуцирани до стандартен формат. Съставителите на корпуса разполагат и с дигитализирана версия на Голям хакаско-български речник за 22 хиляди думи, изд. О. В. Субракова (Новосибирск, 2006) и илюстративен материал към него.

[За повече подробности вижте раздел Текстове, матрица от металингвистични данни].

Освен това се планира създаването на диалектен подкорпус на хакасския език. Към днешна дата в рамките на проекта са обработени теренни материали на хакасските диалекти (сагайски и белтирски). Текстове, събрани от експедиции на Руския държавен хуманитарен университет (2001, 2002), Руския държавен хуманитарен университет и Института за ядрени езици на Руската академия на науките (2007), са обработени на сагайския диалект (Казановка),ДОБРЕ. 12 часа звук (транскрипция, превод, частично гланцирани); на белтирския диалект текстове, събрани от експедицията на Института по лингвистика на Руската академия на науките (2011 г.), са частично обработени, 6 часа звучене (декодиране, превод). Звукови файлове и дешифриране на текстове, маркирани във времето, публикувани в Интернет; в бъдеще се планира да се завърши речникът и да се публикува и в Интернет. Авторите на проекта се надяват на помощта на хакасските диалектолози за разширяване на диалектния подкорпус, по-специално към материала на други диалекти. В допълнение към текстовете в диалектния подкорпус са публикувани различни въпросници, звукови файлове, придружени с преписи (100 речника, 200 речника, големи фонетични въпросници, съставени на историческа основа 1 , морфологични и синтактични въпросници).

1 Виж A.V. Dybo, O.A. Mudrak, За историческия принцип при съставянето на фонетичен въпросник за теренно изследване на диалект // III Международна конференция по теренна лингвистика. Резюмета и материали. М., 2009.