KNOW INTUIT, Лекция, Тезауруси за извличане на информация

Единици от традиционните тезауруси за извличане на информация

Повечето версии на IPT стандартите показват връзката на термините с понятията на предметната област. Според американския стандарт терминът е дума или фраза, обозначаваща понятие. Стандартът ISO подчертава, че терминът за индексиране е представяне на концепция, за предпочитане под формата на съществително име или съществителна фраза.

В същото време понятието се разглежда като единица на мисълта, която се формира мислено, за да отразява всички или някои от свойствата на конкретен или абстрактен, реално съществуващ или умствен обект. Понятията съществуват като абстрактни единици, независими от термините, които ги изразяват.

Българският GOST разглежда понятието като форма на мислене, отразяваща съществените свойства, връзки и отношения на обекти и явления, а терминът в дефиницията на GOST е дума или фраза, която е точното обозначение на определено понятие от всяка област на знанието.

GOST 7.74-96 определя тезаурусните единици като лексикални единици на езика за търсене на информация - т.е. обозначенията на отделна концепция, приета в езика за търсене на информация и неделима в тази функция.

По този начин разработчиците на тезауруси приемат, че понятието предметна област обикновено има няколко възможни варианта на лексикално представяне в текста, които се считат за синоними. Сред такива синоними е избран дескриптор - термин, който се счита за основен начин за обозначаване на понятие в тезауруса. Други синонимни термини, включени в тезауруса, се наричат ​​аскриптори или недескриптори. Те се използват като помощни елементи, текстови входове за подпомагане намирането на подходящи дескриптори.

Дескриптори

Дескрипторите на тезауруса трябва да съответстват на избраната предметна област на тезауруса. Всеки дескриптор, включен в тезауруса, трябва да представлява отделно понятие от дадената област. Дескрипторът може да бъде еднословен или многословен. Тъй като често е трудно да се знае дали една концепция представлява многословна фраза, много тезауруси и ръководства се фокусират върху основните принципи за включване на многословни термини като дескриптори в тезаурус.

Наборът от дескриптори трябва да отговаря на следните изисквания:

Връзки в тезауруса за извличане на информация

GOST 7.25 показва, че основните видове взаимоотношения, които обикновено се отразяват в IPT, са следните:

  • род – вид;
  • част – цяло;
  • причина – следствие;
  • суровина - продукт;
  • административна йерархия;
  • процес – обект;
  • функционално сходство;
  • процес – предмет;
  • имущество - носител на имуществото;
  • антонимия.

Такива смислени типове връзки между дескрипторите най-често не се отразяват в подробен списък от връзки на тезауруса, а се записват с помощта на малък набор от връзки, които обикновено се разделят на два типа: йерархични и асоциативни.

Йерархични взаимоотношения

Съгласно GOST 7.25-2001 йерархичните връзки имат свойствата на транзитивност и антисиметрия, които могат да се използват в случай на излишно индексиране, за да се повиши ефективността на извличане на информация. За предпочитане е връзките между дескрипторите да се посочват като йерархични отношения, ако те имат тези свойства. Йерархичните отношения, използвани в IPT, могат да бъдат обособени в отделни типове.

основна йерархичнавръзката, използвана в IPT, е връзката род-вид (това също е връзката ДОЛНО-ГОРЕ). Съгласно GOST 7.25-2001 между два дескриптора се установява родово-специфична връзка, ако обхватът на понятието за по-нисък дескриптор е включен в обхвата на понятието за по-висок дескриптор.

Освен това, като йерархична връзка в IPT, може да се установи връзка ЧАСТ-Цяло.

Много насоки и стандарти подчертават, че йерархичните връзки в IPT трябва да бъдат установени в случаите, когато връзката е вярна, независимо от контекста - само в такива случаи ITP дескрипторите могат да бъдат организирани в йерархия. Тази препоръка се дължи на факта, че при извличането на информация обикновено е много трудно да се дефинира ясно контекстът на употребата на термина и да се разбере дали това или онова отношение е приложимо в този контекст.

Така за мишките можете да посочите, че са гризачи, тъй като това е вътрешна характеристика на мишките. В същото време е неправилно да се каже, че мишките са вредители, тъй като има лабораторни мишки и домашни мишки, които не са вредители.

Препоръчително е да използвате теста „всички към някои“. Например „всички мишки са гризачи, но някои мишки са вредители“.

Асоциативни връзки

Основната цел на установяването на асоциации между IPT дескрипторите е да посочи допълнителни дескриптори, полезни при индексиране или търсене.

Асоциативната връзка е нейерархична и асоциативна. Асоциативната връзка е най-трудна за определяне. Българският стандарт за създаване на ИПТ посочва, че "асоциативната връзка е обединение на отношения, които не са включени в йерархични отношения или в синонимни отношения. Допуска се включването в асоциативна връзка на всички видове връзки, с изключение на синонимията и връзкатаПРЕГЛЕД ".

Други източници се опитват да изложат по-подробни принципи за установяване на асоциативни връзки, защото в противен случай връзката ще бъде поставена непоследователно.

Американският стандарт описва най-общото правило за установяване на асоциативна връзка между дескрипторите по следния начин: тази връзка трябва да се установи между два дескриптора, ако при използването на един термин изглежда, че се подразбира другият термин. Един термин може да бъде необходим елемент в дефиницията на друг термин, например терминът клетка е необходима част от дефиницията на термина цитология.

Автоматично индексиране на традиционни тезауруси за извличане на информация

Тъй като основните елементи на IPT са термините, описани като дескриптори и аскриптори, може да изглежда, че е доста лесно да се приложи автоматично индексиране на IPT чрез просто съпоставяне на дескрипторите и аскрипторите с документи.

  • важни термини в документа може да не бъдат намерени в тезауруса, защото са изразени по малко по-различен начин;
  • по-малко значимите термини ще бъдат директно отразени в тезауруса и ще излязат на преден план и т.н.

Поради това се изследват по-сложни методи за автоматизиране на IPT индексирането.

Един подход за автоматизиране на индексирането спрямо традиционните IPT е подходът, базиран на правила. Този подход за автоматично индексиране е приложен от тезауруса EUROVOC.

Правилата могат да бъдат прости или сложни. Простите правила не съдържат условия. Сложните правила съдържат условия като близост (на три думи в текста, в едно изречение, в същото поле, например в полето за резюме), местоположение (в заглавието, в текста на резюмето или документа, в началотоизречения, в края на изречението), Формат (главни, всички главни букви). Общо бяха създадени около 40 хиляди правила.

Статистическите методи се използват като други подходи за автоматизиране на индексирането.

С тези подходи процесът на автоматично присвояване на дескриптори на тезауруса на EUROVOC към документи с пълен текст включва две стъпки.

  1. На първия етап (етап на обучение), въз основа на документи, ръчно индексирани от индексатори, се установява съответствие между думите, които се срещат в текста на документа, и присвоените дескриптори на тезауруса. Съответствието се установява въз основа на статистически мерки (хи-квадрат или логаритмична вероятност). Теглото на съответствието на отделна дума с ключова дума е толкова по-високо, колкото по-висока е съвместната честота на използване на тази дума и тази ключова дума спрямо честотата в цялата колекция.

Например, дескрипторът на тезауруса за УПРАВЛЕНИЕ НА РИБНОТО СРЕДСТВО съответства на следните думи (в низходящ ред на тегло): риболов, риба, запас, риболов, опазване, управление, кораб и др.

На втория етап (самото индексиране) за всяка дума от документа се проверява на кои тезаурусни дескриптори отговаря. Ако има такива дескриптори, тогава думата добавя към теглото на дескриптора за дадения текст натурален логаритъм от теглото, получено на първия етап. След обработка на всички думи от текущия текст се получава сумираното тегло на дескрипторите на тезауруса.

Индексаторите на Европейския парламент обикновено присвояват от 3 до 10 дескриптора на документ.

Издаването на системата може да бъде ограничено от броя на издадените дескриптори или от теглото. За примерния текст, присвоените от индексатора дескриптори бяха в първите тридесет автоматично присвоени дескриптори (на позиции 3, 8, 9, 16 и 30).

В същото време повечето от автоматично присвоените дескриптори изглеждат много подходящи за текста на документа и само 3 от 40 автоматично присвоени дескриптори са очевидно неправилни (например Кипър).

Комбинация от безплатни заявки и заявки, базирани на тезауруси за извличане на информация

В момента в света има доста информационни системи, които предоставят на потребителите възможност да търсят информация както при безплатна заявка на естествен език, така и с помощта на дескриптори на тезауруси за търсене на информация, в сравнение с документи от професионални индексатори.

Първата стъпка по този път може да бъде намирането на корелации между думите на документите и дескрипторите на тезауруса или заглавията на рубрикатора.