Средства за компютърно представяне на езикова информация
Изборът на формализъм за представяне на лингвистичното знание се определя от три взаимно противоречащи си критерия: езикова естественост, формална мощност и изчислителна ефективност. Под езикова естественост се разбира, от една страна, удобството за показване на явленията на NL, а от друга страна, типологичната адекватност, т.е. способността да се описват по доста общ начин явления, свързани с много (или всички) естествени езици. От гледна точка на езиковата естественост избраното средство за представяне трябва да описва и цялото НУ и само НУ, т.е. теорията трябва да изключи всички други възможни начини за организиране на символи (критерии за свръхгенерация и недогенерация).
Основите за описване на нивата на формална сила на формализмите са положени от класификацията на формалните езици и граматики, предложена от Чомски. Тази класификация се отнася до нивото на граматическия формализъм на фигура 1. За компютърната лингвистика най-важните сред тях са граматиките на крайните автомати, контекстно-свободните (CS) и контекстно-зависимите (CS) граматики. Едно от най-пълните съвременни въведения в използването на математически модели за описание на NL явления е [Partee et al, 90]. За описание на NL-феномени се използват главно KS-граматики с някои разширения. Опитът от използването на произволни Q3 граматики за моделиране на лингвистични феномени е описан в [Simmons & Ю 92]. Преглед на аргументите за и против възможността за пълно описание на NL с помощта на COP-граматики е даден в [Sampson 83]. Оценка на математическата сложност на различни лингвистични теории е дадена в [Barton et al, 87]. Описанието на естествените езици като формални математически модели беше популярна област на изследване през 60-те и 70-те години, тази тема се обсъжда по-специално всборник [Маслов 75]. Един от сравнително скорошните опити за изграждане на теория на NL, базирана на езика на метаматематиката, е даден в [Lekomtsev 83].

Почти всички лингвистични теории описват начин за представяне на линейна последователност от елементи на изречение чрез йерархичната структура на нейните граматични компоненти. На тази основа граматиките принадлежат към една от двете групи: директни съставни елементи и дървета на зависимости. Първият метод включва образуването на съставни езикови конструкции от набор от по-прости линейно непресичащи се сегменти, които се наричат непосредствени компоненти (непосредствени съставки) на тази конструкция. Вторият метод включва изграждане на дърво от бинарни отношения на пряко подчинение на зависимата дума (модификатор) на основната (глава). Анализът на фразата по отношение на двете представяния е даден на фигура 2. Обикновено в дървото на преките съставки (HC) S означава изречение, NP съществителна фраза, VP глаголна фраза, PP предложна фраза. В граматиката на зависимостта няма стандартен начин за обозначаване на синтактични отношения.
Разликите между тези методи са наследени от фундаментално различни подходи към описанието на езика, датиращи от Tenier (DZ, [Tesni e re 49]) и Bloomfield (NS, [Bloomfield 68]). Следователно методите се различават не само по формални характеристики, но и по отношение на вниманието към такива аспекти на езика като разделяне на езикови изрази, управление, обхват на предикатите и техните аргументи и т.н. Представяне по отношение на непосредствени съставни части често се използва за езици с фиксиран словоред (например в английски), представяне по отношение на дървета на зависимости се използва за езици със свободен словоред (например в български). Описание на използвания формален апаратза целите на представянето на граматиките на зависимостта може да се намери в [Gladkiy 85], сравнение на възможностите на двата формализма и библиография по този въпрос е представена в [Abramov 85], интересна дискусия по този въпрос се съдържа в [Rambow & Джоши 92]. Граматиките на зависимостта не осигуряват удобно представяне на словосъчетания като единици за анализ, както и връзката на онези структури, които по своята същност не са зависими една от друга, например координиращи конструкции. Феномен на английската граматика, демонстриращ неудобството на прост апарат от директни компоненти, е възможността за движение на следвербални частици:
В [Smooth 85] е предложено описание на синтаксиса с помощта на синтактични групи, които отделят съставните части на фразите като единици за изграждане на дърво на зависимостите. Това представяне съчетава предимствата на непосредствените съставни части и зависимости. Друг начин за комбиниране на тези представяния е да се осигурят X-щрих представяния, описани по-долу. Граматичните структури най-често се изобразяват под формата на дървета; в съвременните формализми в това качество често се използва по-обща структура от данни - насочени ациклични графи.
Граматиката на крайните автомати (Finite-State Transition Network) формално съответства на граматика от трети тип, която е проста от гледна точка на възможности. Крайният автомат съдържа набор от състояния (нетерминални символи), сред които има едно или повече начални и крайни и преходни условия между състоянията. Информацията за преход според условията са знаците идващи от лентата, които машината чете. Понякога крайният автомат може да записва знаци на друга лента, в английската традиция такъв автомат се нарича трансдюсер. Често за лингвистични приложения условията за преход не са посочени.директно, но се изчисляват от компонентаречник, който картографира символите или низовете от символи на лентовите символи на техните обобщени класове. Фигура 3 показва държавна машина, описваща морфологията на глаголните форми на суахили, в която глаголната форма съдържа морфологичните характеристики на време и лице на субекта и прякото допълнение, завършени от глаголната основа, например глаголната форма unamsumbua означава „ти го дразниш“.
От S1 до S2 от SUBJ
От S2 до S3 от TENSE
От S3 до S4 от OBJ
От S4 до S5 от VERBSTEM
SUBJ: ni, u, a, tu, wa.
ВРЕМЕ: ta, na, me, li.
OBJ: ni, ku, m, tu, wa.
ГЛАГОЛЕН СТЕМЕН: penda, piga, sumbua, lipa.
Крайните автомати са декларативни средства за представяне, което означава, че те могат да бъдат обратими, т.е. приложения както за анализ, така и за синтез. Те също са много ефективни по отношение на скоростта, но са ограничени в способността си да описват много от структурите, открити в NL, като вложени конструкции, например, от вложени подчинени изречения. По-високото ниво на граматиките се състои от контекстно-свободни (CS-) граматики, които се описват като продукции (правила), които свързват нетерминални символи в техните леви части (преди знака ®) с набор от терминални и нетерминални символи в техните десни части. Пример за CF-правила за проста граматика на българския език е даден на фигура 4. CS-правилата в първата колона описват структурата на нетерминалните символи, във втората - речник, т.е. съответствие между нетерминални и терминални символи.
Подобна граматика описва изречения катоИван вижда Петър; Младият Иван вижда стария Петър; Младият Иван вижда стария Петър да върви; Иван отиваии т.н. Достатъчно е само да се разшири тази граматика, за да се представи българската морфология в по-пълен вид в речника. Имайте предвид, че в тази граматика изборът на конкретно правило за конструиране на глаголни групи (VP-правила) или съществителни фрази (NP-правила) се дава от опции, гарантиран избор между които не може да бъде направен в рамките на това правило. Такава граматика принадлежи към така наречените недетерминирани граматики.
Синтаксисът на CF-правилата е много прост, но за описанието на много NL явления простият апарат на CF-граматиката не е достатъчен. По-специално, правилата без контекст са неудобни за описание на съгласие (например лице и число между субект и предикат). Апаратът CS също е неудобен за показване на зависимости на дълги разстояния, причинени от движението на думи през фраза, или за описание на липсата на компоненти (изтриване). Например английски изречения с въпросителна дума в wh-:
Кое бебе целуна момичето?
съдържат преходни глаголиготвиицелувай,прякото допълнение на които е преместено в началото на изречението. Класическият феномен на липсата на компоненти е многоточието в координиращите конструкции:
В традицията на трансформационните граматики се въвеждат трансформации, за да представят такива явления, превеждайки синтактичната структура на такива фрази в стандартна. Един от начините за отразяване на промените в синтактичната структура без използване на трансформации е повдигането на възел. В такава методология мястото, което трябва да бъде заето от някаква съществителна фраза в стандартната синтактична структура на съставното дърво,означен с празен възел и допълнен със знака наклонена черта (NP/). Такъв възел се намира, като правило, вдясно от реалната позиция на съответния компонент и в по-дълбок компонент на дървото (например Wh-групата зависи от корена на дървото, а NP/ зависи от глаголната група). В такова описание Wh-групата се издига, така да се каже, спрямо стандартната си позиция (оттук и концепцията за повдигане).