3.2. Първоначални понятия на корпусната лингвистика

Проблемна област. Проблемната област се разбира като област на реализации на езиковата система, която съдържа явления, които подлежат на езиково описание. Проблемната област за конкретен корпус от данни може да бъде произволно голяма или малка - всичко се определя от избрания обект на анализ. Важно е да се има предвид, че в идеалния случай проблемната зона има две измерения – език и реч. Вербалното измерение е представено от речеви изказвания (реализации), а лингвистичното измерение се проявява в съществуването на потенциална възможност за възникване на други употреби, които допълват масива от съществуващи реализации. По правило в корпусната лингвистика лингвистичният аспект всъщност се игнорира, тъй като областта на включените данни първоначално е фиксирана - реализации на езиковата система. Това е напълно естествено, тъй като едва ли е възможно да се поправи, да се събере "мощност", "възможност". Въпреки това, за редовно променящ се корпус от данни, езиковият аспект на проблемната област незабавно „изпълзява“ при разработването на принципи за модифициране на корпуса. Освен това за лингвистичните изследвания (с изключение на специално определени случаи) в центъра на вниманието е лингвистичното измерение, тъй като то трябва да бъде реконструирано в резултат на анализ.

От чисто практична гледна точка проблемната област най-често се явява на разработчика на корпуса като много данни, чиято обработка е затруднена поради факта, че има твърде много езикови имплементации.

Корпус от данни. Корпусът от данни е извадка от данни, формирана по определени правила от проблемна област. По този начин корпусът от данни е резултат от картографиране от проблемната област. За разлика от проблемната област, корпусът от данни има само едно измерение - речта, тъй като той нямапотенциала за производство на неговите съставки. Последното обаче не означава, че корпусът от данни не може да се използва за реконструиране на езика като система. Напротив, това е една от основните задачи на лингвистичното изследване на корпуса. Пред нас е едно от глобалните противоречия, присъщи на всеки продукт на езиковата система - от звук до текст. Лингвистът трябва да направи изводи за функционирането на езика като цяло, като система, въз основа на индивидуалните резултати от дейността на езика.

Единица за съхранение на корпус от данни. Тъй като корпусът от данни е определена извадка от проблемната област, формирана по определени принципи, единицата за съхранение зависи пряко от основанията, за които се прави извадката.Единица за съхранениее набор от изрази на естествения език на проблемната област, който е свързан с едно описание на някакъв метаезик, определен от процедурата за формиране на корпуса. W. Francis, обсъждайки размера на "основните единици" на корпуса, отбелязва, че това могат да бъдат отделни думи, кратки фрази, изречения, фрази (синтагми). Ако един корпус трябва да бъде анализиран, тогава той трябва да включва цели текстове или техни доста големи фрагменти [Francis 1983, p. 344 и сл.].

Слоган:За мъже, които обичат жени, които обичат мъже

Артикул:Тоалетна водаAzzaropourHomme

поле:козметика и парфюми

тип слоган:преведено от френски

оригинал: Pour les hommes qui aiment les femmes qui aiment les hommes

Източник:Остани, Cosmopolitan

Естествен езиков изразЗа мъже, които обичат жени, които обичат мъжеи свързани характеристикизаедно образуват единица за съхранение, която може да бъде въведена в база данни или включена в обикновен текстов файл.

Корпус от текстове. Корпусът от текстове е вид корпус от данни, чиито единици са текстове или техни доста значими фрагменти, включително, например, някои пълни фрагменти от макроструктурата на текстове в дадена проблемна област.

Няколко съображения относно типовете корпуси от данни.

Изследователски сгради. Изследователските корпуси са тези, които са предназначени предимно за изследване на различни аспекти от функционирането на езиковата система. Те се изграждат не постфактум – след всяко проучване, а преди то да бъде извършено. Този тип корпус от данни, като правило, е фокусиран върху широк клас лингвистични задачи. Липсата на специфичност на задачата налага използването на пропорционално стесняване при конструиране на изследователски корпуси, което е най-лесният начин за осигуряване на представителност (виж по-долу).

Илюстративни приложения. Илюстративните корпуси се създават след научни изследвания: целта им е не толкова да разкрият нови факти, колкото да потвърдят и обосноват вече получените резултати. Такива корпуси не са отливка, а правилно (от гледна точка на статистиката) показване на проблемната област. Те включват само това, което е достатъчно, за да илюстрира описаното явление. Типичен пример за илюстративен корпус е представен в Ръководството за дискурсивните думи на българския език [Баранов, Плунгян, Рахилина 1993], където семантичният анализ на частиците и разграничените значения са придружени от значителен текстов материал, позволяващ на читателя да провери предложените семантични интерпретации.

Спецификата на работата на динамичния корпус е тазипотребителят, когато извършва проучване, може да избере работен корпус от общия общ корпус, който включва само част от текстовете на общия корпус. Бирмингамският корпус на английски език е изграден като динамичен корпус. По-долу е разгледан пример за динамичен корпус в съвременната българска журналистика.

Корпуси от паралелни текстове. За научни и практически цели (по-специално за преподаване на чужди езици),

23) Терминът "монитор" е пряко свързан с идеята за езиков мониторинг - вижте §4 от глава 5.

корпус от паралелни текстове. По своята структура това е подмножество от текстове на изходния език и едно или повече подмножества от текстове, които са преводи на текстове от изходния език на целеви езици. Например английският текст „Алиса в страната на чудесата“ и неговите немски, френски и български преводи могат да формират такъв корпус или да бъдат част от по-голям корпус от паралелни текстове.

Начин за представяне и съхраняване на корпус от данни. Най-голям интерес представляват тези методи, които разчитат на съвременни компютърни технологии за съхранение и обработка на данни. За по-нататъшно представяне е важно да се направи разграничение между двата основни режима на представяне -неструктуриранформат за съхранение на текст (запис на текстови графеми в ASCI кодове) иструктуриранформат за съхранение (текст със специално маркиране); последното включва и представяне на данни във формати на база данни от различни типове.

Показван праг. Тъй като корпусът от данни е стесняване на проблемната област, съвсем очевидно е, че с "пропорционално" стесняване, което очевидно е най-простият случай на прилагане на принципа на представителност (виж по-долу), някои части от проблемната областса извън корпуса от данни. Да вземем един груб пример. Нека проблемната област съдържа 20 контекста, а корпусът от данни трябва да съдържа четвъртата част - 5 контекста. Контекстите са примери за изпълнение на различни синтактични явления: в десет контекста са представени прости изречения и в осем сложни изречения. Последните два контекста съдържат примери за парцелиране. В корпуса от данни един контекст съответства на четири контекста на домейн. Това означава, че контекстите на парцелирането, когато са пропорционално стеснени с фактор четири, не попадат в корпуса от данни. Съотношението между корпуса от данни и проблемната област с пропорционално стесняване ще се наричапраг на показване. Колкото по-висок е прагът, толкова по-вероятно е някои явления от проблемната област, които имат относително ниска честота, да не попаднат в корпуса от данни.

Параметризиране на проблемната зона. Стесняването на проблемната област до изследователския корпус се основава на подчертаване на някои характеристики на текстове в проблемната област, които са от значение за предложеното изследване. Съвкупността от тези характеристики (техните възможни комбинации) образува многомерна матрица, която служи като основа за подбор на текстове за корпуса. Често се използва експертна преценка за оценка на съответните параметри на проблемна област. W. Francis, описвайки историята на създаването на Brown Corpus, отбелязва, че на етапа на планиране на работата е събрана среща на известни експерти в областта на дизайна на корпуса (R. Quirk, F. Gove, J. Carroll участваха в нея), които формулираха основните принципи на параметризация на проблемната област и структурата на корпуса [Francis 1983, p. 344 и сл.].

Нека сега се обърнем към изискванията, които потребителите обикновено поставят към корпуса от текстове (воттук нататък именно корпусът от текстове ще бъде основният предмет на дискусия), имайки предвид, разбира се, идеалната ситуация.