Въведение Термин електронен речник

1. /Електронни речници и компютърна лексикография1.docВъведение Терминът "електронен речник"
Електронни речници и компютърна лексикография

Наложи се понятието „електронен речник“. В същото време атрибутът "електронен" характеризира своя обект толкова повърхностно, колкото противоположният атрибут "хартиен" - традиционните речници. Обикновено се разбира, че речник на компютър е хартиен речник, въведен в него, оборудван с удобни инструменти за търсене и показване. Тоест създателите на електронни речници наливат доброто старо лексикографско вино в нови електронни мехове.

Компютърната лексикография, като област на приложната лингвистика, която създава подобни речници, е лишена от собствен езиков предмет. Остава само зрелищна демонстрация на каноничното съдържание.

Бихме искали да предложим друга гледна точка, според която компютърната лексикография е специално направление в практическата лексикография със свои собствени подходи не само към показването, но и към съдържанието на речника. Вярваме, че електронният речник е специален лексикографски обект, в който могат да бъдат внедрени и пуснати в обращение много продуктивни идеи, които не са търсени в хартиените речници по различни причини.

Необходимо е веднага да се направи резервация, че говорим за тенденции, потенциални възможности на компютърната лексикография, някои от които все още не са реализирани или дори все още не са реализирани.

Преди да преминем към обсъждането на новите възможности, нека се спрем на проблемите на класическата "хартиена" лексикография.

Антиномии на хартиената лексикография

Плодовете на традиционната практикаЛексикографиите страдат от три основни противоречия, които са характерни за тази област на човешката дейност:

1.Колкото по-голям е обемът на речника, колкото по-пълно и убедително е описанието на лексикалните значения, толкова по-трудно е да се използва.

Това противоречие доведе до поляризацията на пазара на хартиени речници: има голяма група масови публикации, доста примитивни, но сравнително удобни, на които се противопоставят единични професионални публикации, които не са подходящи за бързо получаване на информация. Типичен пример е 20-томният Оксфордски речник.

2. Колкото по-пълно и по-дълбоко е описанието на лексикалните значения, толкова по-малко речникът отговаря на актуалната езикова и културна ситуация.

Изключително дълъг цикъл на създаване и модифициране на фундаментални хартиени речници води до факта, че образът на света, който те фиксират в системата от техните значения, примери и преводи, вече е забележимо различен от реалността. Много речници, чиято основна част от статиите се формира в езиковата атмосфера от средата на века, са лексикографски музеи (и дори терминологични гробища, ако говорим за специализирани речници).

3.Колкото по-интересна е действителната лексикографска концепция на речника, толкова по-интегрални са средствата за описание на лексикалните значения, толкова по-тясна е неговата лексикална база.

В резултат на това универсалните хартиени речници демонстрират печална липса на влияние на постиженията на теоретичната лексикография върху лексикографската практика. Научни лексикографски проекти има, но те се реализират под формата на речници, които не покриват и 10% от цялото лексикографско пространство. Например в известния Тълковно-комбинаторен речник (ТКС) изд. Melchuk и Zholkovsky [1] описват само около 400 лексикалнизначения на българския език.

Възможности на компютърната лексикография

Компютърното внедряване на хартиен речник само по себе си прави възможно преодоляването на някои от тези проблеми. Новите функции на електронния речник включват:

1. Значително по-усъвършенствани възможности за показване на съдържанието на речникова статия, включително възможност за частично показване по различни критерии (различни "проекции" на речника), различни графични инструменти, които не се използват в обикновените речници.

2. Използване на различни лингвистични технологии за достъп до съдържанието, като морфологичен и синтактичен анализ, търсене в пълен текст, звуково разпознаване и синтез и др.

От гледна точка на потребителя смисълът на внедряването на всички тези технологии в електронен речник е, че става възможно бързо да се получи информация, която се съдържа някъде в недрата на речника и директно отговаря на заявката, формулирана от потребителя в удобна за него форма.

При традиционния подход минималната единица за достъп е токен (името на запис в речника): трябва да прочетем целия запис, за да определим дали съдържа отговора на нашето запитване. За речници като Оксфорд това представлява сериозен проблем. Например глаголният набор има само 400 основни значения там (и много от тях имат подстойности).

Потребителят би искал речникът да локализира подходящата информация колкото е възможно повече. В същото време не говорим за автоматичен избор на преводен еквивалент (ако говорим за преводен речник). Спецификата на речниковия отговор е, че той предоставя много разнообразна информация за дума или фраза, а не само съвпадение на превод, включва активен избор на потребителя от няколковъзможни добре обосновани алтернативи.

Опитът за решаване на проблема с адекватен отговор на речника на заявка обаче неизбежно се натъква на съпротива от самия речников материал, прехвърлен от хартиен речник.

Източникът на това противоречие също е ясен: речникът е модел на езика, подреден на напълно различни принципи от формалните модели, които са в основата на тези технологии. И ако в областта на морфологията противоречието все още не е много съществено, то в областта на синтаксиса и семантиката то става почти непреодолимо.

Всъщност технологията на морфологичния анализ ви позволява само да установите съответствие между оригиналната форма на дума от текста и набора от лексеми (речникови записи), за които е възможна такава форма. Разборът ви позволява да направите същото за фрази, които са отделни записи в речника.

Първата и очевидна стъпка, която създателите на електронни речници вече предприемат, е първичното маркиране на речников запис, формализирането на вътрешната структура, която до известна степен се среща в добрите хартиени речници.

Всички тези мерки обаче са повърхностни. Ясно е, че задачата е да се гарантира, че единицата за описание е отделна лексикална стойност и технологиите за анализ могат да установят съответствие между оригиналната заявка и онези лексикални стойности, които са подходящи за тази заявка според синтактични и семантични критерии.

Като илюстративен пример може да се цитира почти всеки глагол, който принадлежи към ядрото на езика. Например глаголът „размножаване“ може да се появи в следните контексти:

разредете алкохола с вода;

(Английски еквиваленти: донасяне; провеждане; част, отделяне; смесване; разтваряне; развод; порода; растение и т.н.)

Задачата за създаване на такова речниково съдържание, което би позволило да се направи отделно лексикално значение, а не морфологична лексема, единица за анализ, ни се струва най-обещаващата посока в компютърната лексикография. Ясно е, че неговото решение изисква "синхронизиране" на описанията на речниците и формалните модели, използвани от технологиите за анализ. В крайна сметка това трябва да бъде едно цялостно лексико-синтактико-семантично описание.

Читатели и писатели

Интегралният подход към лексикалните описания също позволява да се реши проблемът с "монофункционалността" на хартиените речници.

Например, характеристика на повечето хартиени преводни речници е ориентацията на описанието на структурата на лексикалното значение в изходния език към лексикалната система на целевия език и към изпълнението на точно една функция - действителният превод от език А на език Б, при предположението, че език А е чужд, а език Б е роден. Излишно е да казвам, че такова ограничение прави речника изключително неудобен, когато става въпрос за преход от потребителския модел Reader към модела Writer.

Всъщност днес такива модели се реализират от различни видове речници, което е доста неудобно за читателя. Следователно интегралният подход към лексикалните описания е оправдан не само методически (и, което е важно, икономически), но и от гледна точка на отчитане на интересите на потребителя.

Нека се спрем на проблема с уместността на речниковото съдържание.

Както вече споменахме, фундаменталните (най-добрите!) хартиени речници неизбежно са остарели речници.

Това важи особено за разговорната лексика, по-специално за ругатните. В тази област местните класически речници изглеждат не само остарели, но и просто лицемерни.

Функции за коригиране на текущото състояние на езикапоемат растящи като гъби след дъжд малки речници, обикновено много опортюнистични и повърхностни. Новите значения в тях са откъснати от езиковите си корени, слабо или произволно обяснени.

Масовите софтуерни продукти, като например електронните речници, се характеризират с чести промени на версиите и постоянна обратна връзка от хиляди потребители. Следователно компютърната лексикография е неизбежно релевантна лексикография.

Животът на електронния речник трябва да бъде подобен на тежкия живот на други софтуерни системи: с маниакалното желание на особено вредните потребители да намерят друга грешка или празнота и, от друга страна, с възможността и необходимостта да се коригира въпросът сега, а не след десетилетия.

Съответствие с нивото на постиженията на лингвистичната наука

Пропастта между лексикографската теория и лексикографската практика е голяма. Това трябва да е особено обидно за българската лингвистична наука, в която лексикалната семантика заема особено място. Достатъчно е да посочим имена като Мелчук, Апресян, Падучева и много други.

Разбира се, има специални "понятийни" речници, в които лексиката е представена цялостно и систематизирано. Например споменатите вече TCS, създадени в рамките на теорията за смисъла и текста на Мелчук, или тълковните и синонимните речници на групата на Апресян.

В същото време няма да намерите никакви следи от тези идеи в масовите хартиени речници. И именно в развитието на тези идеи виждаме бъдещето на практическата компютърна лексикография.

В тази статия не можем да анализираме подробно теоретичните концепции, които са едновременно практически и полезни. Посочваме само следното:

• Концепцията за "лексикална функция", която позволява систематично да се опише несвободната комбинираемостдуми. Например фактът, че „те водят война“, но „полагат изпит“, че „се излагат теории“, но „се представят мисли“ и т.н.

• Описание на семантиката и практическото прилагане на граматическата флексия и словообразуването. Всеки език има свои собствени начини за граматично кодиране на значението. И тези начини никога не са описани систематично в масовите речници. Например, как да предадете на английски значението на "покажете се", дори ако знаете как да предадете "покажете се"?

• Синтактични описания. Тук ситуацията е най-тъжна, тъй като в масовите речници дори няма система от понятия, с помощта на които синтактичната информация може да бъде доведена до обикновения читател. Идеята, че граматиката, съдържаща се в справочника, отговаря за състава на изречението, а речникът осигурява превода на отделни думи, не издържа вода от гледна точка на съвременните представи за централната роля на думата в синтаксиса.

Изходът от тази тъжна ситуация вече е посочен. Бъдещето на лексикографията е в интегралните речникови описания, базирани на формални модели, които отчитат посочените научни резултати. Технологиите за достъп до речниково съдържание ще се базират на същите модели.

Тъй като броят на думите в английския език продължава да расте, речниците стават по-дебели, а разходите за публикуване растат до небесата, лексикографите по целия свят измислиха революционно решение на този проблем.

На поредното заседание на Асоциацията на креативните лексикографи членовете й единодушно гласуваха за 15-процентно намаление на всички речници. Намалението ще се извърши пропорционално за всички букви и на всички нива на речника. Така до 2002 г. всеки новоизлязъл речник, от училищен до академичен, ще бъде съкратен с 15%

ПрезидентътАсоциацията Harley Likely описа решението като „екологично разумно“, като посочи, че по-малките речници спасяват горите. Въпросът е малък: да се определи какво точно трябва да се изхвърли.