Заявка за участие в I Международен симпозиум „Социална теория и проблеми на информацията
Заглавие на презентацията Рамков подход в компютърната лексикография
Наименование на раздела Лингвистични аспекти на теорията на информационната дейност
Ставрополски държавен педагогически институт на университета (SGPI)
Позиция старши преподавател
РАМКОВ ПОДХОД В КОМПЮТЪРНАТА ЛЕКСИКОГРАФИЯ
Ставрополски държавен университет
Педагогически институт (SGPI)
Катедра Катедра по чужди езици
Компютърната лексикография е специално направление в практическата лексикография, което се отличава с нови подходи не само към начина на представяне на информацията, но и към съдържанието на речника. При традиционния подход единицата за достъп до речникова статия е лексема. Една лексема, като правило, има няколко значения, които могат да се различават в зависимост от описаната ситуация. Задачата на компютърната лексикография е да направи отделно лексикално значение единица за анализ, да предостави нови възможности за описание на семантиката и синтаксиса.
„Рамковият подход“ в лингвистиката се разбира като формализирано описание на дейността на човек в контекста на определена ситуация (например ходене на ресторант, посещение на лекар, посещение на лекция и т.н.). Рамката е структура от данни, която съдържа представяне на самата стереотипна ситуация. Той определя и описва най-характерното за дадено общество. Рамката е неразривно свързана със специфична езикова култура. Следователно рамковият подход в компютърната лексикография позволява да се получат фундаментално нови семантични знания.
Концепцията за семантика на рамката е разработена в началото на 80-те години на миналия век от американския лингвист Чарлз Филмор. Според концепцията за значението на думите(фрази, изречения, текст) корелират със сцените. Една рамка може да действа като част от друга. Различните кадри могат да включват един и същ езиков материал, да влизат в отношения между кадрите.
Според идеите на конструктивната граматика (construction grammar), разработена през 90-те години на ХХ век от Ч. Филмор, единицата на езика е граматичната рамка, която едновременно представя лексикална, семантична, граматична и синтактична информация.
Резултатът от прилагането на лингвистични изследователски програми за фрейм семантика и конструктивна граматика на Ч. Филмор в лексикографията беше създаването на електронния ресурс FrameNet (http://framenet.icsi.berkeley.edu/). FrameNet е електронен лексикографски ресурс, достъпен в реално време (онлайн). Ресурсът FrameNet е разработен под ръководството на C. Fillmore като част от проекта "Tools for Lexicon Building" в Международния институт по информатика в Бъркли, Калифорния. Проектът включва свързване на Националния британски лингвистичен корпус (British National Corpus / BNA) в семантични и синтактични обобщения, базирани на семантиката на рамката. По този начин базата данни FrameNet съдържа описание на семантични рамки (техните дефиниции и структури), графични рамки, което е придружено от представителен набор от анотирани корпуси. Базата данни FrameNet съдържа над 10 000 лексикални единици, от които над 6 000 имат подробни анотации. Освен това базата данни съдържа 800 семантични рамки, примери за които са отразени в 135 000 анотирани изречения. Анотациите на FrameNet са съставени от два източника: анотирани изречения, избрани въз основа на заявка от различни текстовеБритански лингвистичен корпус (BNA) и анотирани текстове (анотация на пълен текст). Анотирането на текстове стана възможно благодарение на метода за йерархично представяне на информацията. Лексикографите на FrameNet маркират изречения, подчертават рамки и ги описват по нива (елемент на рамка, нейната граматична функция, тип фраза).
Базата данни FrameNet е съвместима за интегриране с WordNet (електронен тезаурус, който определя значенията на думите, свързани чрез семантични указатели) и PropBank (онтология на английски глаголи, фокусирана върху синтактичен и семантичен анализ на текст и изграждане на предикатно-аргументни структури).
В българската компютърна лексикография няма специализирани компютърни ресурси, подобни на FrameNet. Ето защо въпросът за проектиране на електронен лексикографски ресурс, който да отчита принципите на англоезичния FrameNet, традициите на руската езикова семантика, както и особеностите на българския език, е от особена актуалност. и , описвайки предложената от тях технология за създаване и структурата на корпусния речник на конструкциите, те отбелязват, че за всяка единица трябва да се представят 100-200 изречения от Националния корпус на българския език (НКБЕ). В същото време разработчиците приемат балансирана селекция въз основа на такива показатели като характеристики на метатекста, характеристики на изречението и ролята на предиката в изречението. Трябва да се отбележи, че разработената система ще бъде предназначена за изследване на морфологични, синтактични, семантични и лексикални ограничения в конструкциите на българския език.
2. , Кузнецова Framenet: към проблема за създаване на корпусен речник на конструкциите. – http://www. *****/dialog2009/materials/html/47.htm.
3., Към въпросасистемно-онтологична интеграция на знанието в областта // Математическа машина и система, №3,4, 2007. – С.63-75.