Резюме Тезавър за извличане на информация - Банка от резюмета, есета, доклади, курсови работи и

Федерална агенция по образованието на България

Катедра "Приложна информатика".

студент (ka) 531 (d) IF (OZO)

Тезаурус за търсене на информация: определение, цел на разработването

Използване на тезауруси за търсене на информация

Структура на тезаурус за търсене на информация

Конструиране на тезауруси за търсене на информация

Обхват на приложение и перспективи за развитие на тезауруси за търсене на информация

Понастоящем, поради увеличаването на обема на документалната информация, необходима за вземане на ефективно управленско решение, и възможностите, предоставени от новите компютърни технологии, автоматизираните системи за извличане на информация са широко използвани в различни сектори на икономиката.

Организацията на бързо и ефективно търсене на документна информация става все по-неразрешим проблем.

Целта на документалното търсене е намирането и издаването на документи или техните описания, съответстващи на заявката на потребителя.

Традиционно системите за търсене на информация (IPS) се използват за тематично търсене на научна и техническа информация в големи библиотеки, научно-технически центрове, архиви, патентни библиотеки.

По този начин обхватът на приложение на технологиите на системите за извличане на информация изглежда доста широк.

При автоматизирането на търсенето на документална информация най-важната задача е да се формализира съдържанието на документа и заявката. В този случай търсенето се извършва в целия текст на документа или в неговото изображение за търсене, а отделни ключови думи или техните логически комбинации най-често действат като заявка. Именно на тази технология се основава работата на тезауруса за извличане на информация (IPT). Целта на моята работа е да давамнеобходимите определения, определят целите на развитието на ИПТ, неговата структура и конструкция, както и значението и перспективите за развитие.

1. Системи за извличане на информация

Технологията за пълнотекстово търсене е неразделна част от такива модерни и обещаващи информационни технологии като: системи за управление на документи (DMS), технологии за групов софтуер, технологии за търсене в Интернет/интранет. Най-известната услуга на Интернет World Wide Web (WWW) е базирана на хипертекстова технология.

Системата за извличане на информация за управленски документи, като правило, изисква разработването на собствен език за извличане на информация, адекватен на дадената предметна област.

В документните системи за търсене на информация документът се търси чрез кратко формализирано описание на съдържанието му - така нареченото търсено изображение на документа.

Най-важният структурен компонент е езикът за извличане на информация.

Език за извличане на информация, ILP (индексиращ език, език за извличане) - изкуствен език за изразяване на съдържанието на документи или заявки с цел последващо търсене.

Основната цел на ИЛП е да установи принадлежността на даден документ към определена група понятия.

Преводът на текстове на документи и заявки в ISL се нарича индексиране.

Индексирането може да бъде ръчно (когато се извършва от човек) или автоматично.

За комуникация между човек и компютър се разработват специални изкуствени езици; естественият език (NL) в това си качество все още не може да се използва без специална предварителна трансформация. В естествения език има: синонимия, омонимия и полисемия, излишък,субективност и други свойства, които предотвратяват автоматизираната му обработка.

Синоними са думи, които се изписват различно, но имат еднакво значение (България, РФ, България).

Омоними - думи, които съвпадат по звуков и графичен състав, но имат различно значение (ключът може да бъде - телеграф, търсене, до ключалката, до килера и др.).

Полисемия - наличието на няколко различни, но взаимосвързани значения в една и съща дума (например: фамилия - като собствено име и фамилия - като семейство).

Излишъкът на NL е наличието на ненужна информация, без която е възможно точно и недвусмислено да се установи значението или значението на съобщението. Така в естествения език често няма еднозначно съответствие между една дума и нейното значение.

Изкуственият език обикновено се разработва на базата на NL. В същото време се елиминира двусмислието на думите EJ.

Думите на всеки език в процеса на показване на обекти от реалния свят влизат в определени отношения помежду си. Тези отношения могат да бъдат разделени на парадигматични и синтагматични.

Най-често методът на организиране на понятията се използва като основа за разделяне в класификацията на ILP. Според начина на организиране на понятията те разграничават: предварително съгласувани (класификационни) ИЛП; пост-координирани (дескрипторни) IPN.

Дескрипторните езици са семантично по-силни от класификационните езици, но по-трудни за формална обработка.

Дескриптор - ключова дума или фраза, която служи като име на клас от еквивалентни ключови думи (синоними). По правило за дескриптор се избира една, най-използваната ключова дума от класа синонимни ключови думи.

Разработването на дескрипторен език всъщност се свежда до разработването на тезаурус за извличане на информация.

Информация-тезаурус за търсене: определение, цел на разработването

Тезаурусът е термин, широко използван в компютърните науки като неразделна част от системите за извличане на информация.

Има две дефиниции на тезауруса за извличане на информация:

1. Тезаурусът за извличане на информация е речник, който показва семантичните връзки между лексикалните единици на описателен език за извличане на информация (дескриптори) и е предназначен да търси думи по тяхното семантично съдържание.

2. Тезаурусът за извличане на информация (IPT) е контролиран речник на термини от предметна област, създаден за подобряване на качеството на извличане на информация в дадена предметна област.

И в двата случая говорим за речник, който е предназначен да улесни търсенето на необходимата информация.

Има два възможни начина за подреждане на думите в речниците: според близостта на буквения им състав и според семантичната близост.

Според първия метод се създават азбучни речници. Вторият начин е тезаурусът. Азбучните речници служат за разкриване на значението на дадена дума. Тезаурусите се използват за търсене на думи за изразяване на дадена концепция. Тоест, ако в обичайния речник се търси значението на една дума, то в тезауруса по дадено значение се търсят думи, които изразяват това значение.

Цели на развитието на IPT:

- осигуряване на последователност при задаването на индексните термини;

- обозначаване на връзките между термините;

- улесняване на извличането на информация.

3. Използване на тезауруси за извличане на информация

Тезаурусите за извличане на информация се използват за индексиране на документи и заявки.

Има индексиране без тезаурус и индексиране с контрол на тезауруса на речника.

С индексиране без тезаурус, изображението за търсенедокумент се представя като списък с ключови думи, избрани директно от текста на документа. Това индексиране отнема по-малко време и е по-малко трудоемко. Този режим на индексиране обаче има редица недостатъци: възможна е синонимност; парадигматичните отношения не могат да бъдат отразени.

При индексиране с контрол на речника на тезауруса, само дескрипторите, включени в тезауруса за извличане на информация, се използват за изразяване на съдържанието на документ и заявка, което прави възможно премахването на синонимията и отчитането на парадигматичните връзки и в крайна сметка повишава ефективността на търсенето.

По този начин тезаурусите за извличане на информация се използват за:

- превод на текста от NL към дескриптора ILP чрез замяна на ключовите думи със съответните дескриптори, като същевременно се елиминира неяснотата;

- показване на парадигматични връзки между дескриптори.

4. Структура на тезауруса за търсене на информация

Тезаурусът има формата на речник, в който термините са подредени в определен ред и връзките между тях са фиксирани.

По правило тезаурусът се състои от въведение, азбучен указател (речникова част) и систематичен указател.

Уводът съдържа общи характеристики на тезауруса - обхват, правила за използване, брой дескриптори, ключови думи и друга основна информация.

Азбучният индекс включва азбучен списък на описателни записи.

- ключови думи от класа на еквивалентност;

- дескриптори, подчиняващи капитала;

- дескриптори, подчинени на капитала;

- дескриптори, свързани със столицата.

Асоциациите могат да бъдат от следните видове: причина - следствие; суровина - продукт; процес – обект; процес – предмет; имущество - носител на имуществото; функционаленсходство и др.

Систематичният индекс служи за разкриване, записване и контрол на парадигматичните връзки между дескрипторите. За всеки ISL дескриптор трябва да бъдат намерени съответните общи и специфични дескриптори. Освен това първо е необходимо да се формулират критерии, които определят броя на нивата на йерархията. Определянето на степента на показване на парадигмалните отношения зависи от изискванията към системата. Колкото по-широко се показват тези връзки, толкова по-голяма е пълнотата на въпроса, но в същото време се увеличава речникът, системата от препратки става по-сложна и може да настъпи намаляване на точността на търсенето.

5. Конструиране на тезауруси за търсене на информация

Тезаурусите са разработени за специфични индустрии. Например има тезаурус за документация, дескрипторен речник за компютърни науки и т.н. Може също да се разработи тезаурус, който да обслужва конкретна система за извличане на информация.

Изграждането на тезаурус се състои от няколко взаимосвързани стъпки.

Първият етап е формирането на речников запас. Речник - начални набори от ключови думи. В същото време се разглежда представителен масив от най-информативни документи за дадена предметна област. Например: реферативни списания, речници, учебници, справочници, нормативни документи и др. Подбрани са думите, използвани в тези източници, установява се честотата на употребата на думите и се вземат предвид всички форми, които думите могат да имат.

Вторият етап е формирането на набор от ключови думи. От речника се формира набор от ключови думи. При избора на ключови думи се взема предвид информационното съдържание на думата, което се определя въз основа на честотата на срещане на думата, ролята на думата в тази предметна област. Процесът на избор на ключови думи е доста труден за формализиране.Например такъв критерий като честотата на поява не може да бъде абсолютен. Ако дадена дума се среща много често в текстове, това може да означава, че тя изразява твърде широко понятие или не е достатъчно ясно дефинирано, т.е. неинформативен. Ако дадена ключова дума се среща много рядко, това може да означава, че тя изразява нова концепция и следователно е информативна.

Третият етап е формирането на класове за еквивалентност. Избор на дескриптори.

Клас на еквивалентност е група от термини, които са еквивалентни по значение в обхвата на дадена система. Като дескриптор се декларира една от думите на класа на еквивалентност (по правило най-използваната). Всички думи, включени в класа за еквивалентност, се обявяват за условни синоними (условни - тъй като са еквивалентни в рамките на дадена предметна област, а в NL тези думи може да не са синоними).

Критерият за включване на думи в класа за еквивалентност е семантичното значение на тази дума при търсене на документи, т.е. ако дадена дума може да бъде заменена с друга дума при търсене на документ, така че за всяка заявка изходът от документи ще бъде същият като преди замяната, тогава такива две думи се декларират като условни еквиваленти и се включват в един клас на еквивалентност. Ключовите думи, принадлежащи към един и същ клас на еквивалентност, се поставят в съответния запис на дескриптор и се маркират със символа "c".

В процеса на конструиране на тезаурус и избор на набор от дескриптори се елиминират синонимията, омонимията, полисемията на ключовите думи, както и идентифицирането на парадигматичните връзки между дескрипторите.

В NL много думи могат да бъдат правилно интерпретирани само като се вземе предвид контекстът. В ISL за правилното тълкуване на ключовите думи са необходими средства за премахване на двусмислиетотълкуване на думи.

За да се елиминира неяснотата (хомонимия и полисемия), ключова дума, която може да се тълкува нееднозначно, е снабдена с етикет, който показва в какво значение се използва тази ключова дума в IPL.

Разработването на тезаурус без използването на компютърни технологии е доста дълъг и трудоемък процес.

Повечето автоматизирани методи за създаване на тезаурус се основават на автоматично изчисляване на честотата на думите, съдържащи се в документи, които се считат за типични за дадена предметна област. Резултатите от такава обработка обикновено се представят под формата на матрица "документ-термин" (фиг. 1). Матричният елемент в пресечната точка на ред и колона се третира като тегло на дума в документа. На базата на получената матрица се изчисляват коефициентите на сходство между думите, които се определят в зависимост от честотата, с която думите се срещат заедно в анализираните документи, и се формира структурата на тезауруса.