Тезаурус срещу
Един от първите проблеми (след избора и стесняването на темата), с които се сблъсках при подготовката на лекцията, беше традиционното мислене за заглавието. Препъникамъкът беше понятието „когнитивен тезаурус“, за което не успяхме веднага да намерим адекватен превод. В същото време първоначално възникна въпросът какво е когнитивен тезаурус, но малко по-късно възникнаха трудности с превода на думата "тезаурус" в общ смисъл.
През цялото време на моята страст към компютърната лингвистика, няколко пъти се опитвах да дефинирам ясно това понятие въз основа на наличната литература, но всеки път се натъквах на „кално поле“, което само нарастваше с появата на нови публикации, стандарти, технологии и т.н. Всъщност понятието "тезаурус" се превърна в своеобразна модна дума (в пълния смисъл на думата), т.е. постоянно променящи се и силно зависими от контекста (среда на учените, области на приложение и т.н.).
Може би първото тълкуване на тази дума, което приех, беше нещо като „универсален речник с много входове“. Такова разбиране се формира у мен под влияние на книгата на Ю. Н. Караулов „Лингвистичен дизайн“, в която е представена много интересна типология на речниците и принципите на тяхното изграждане. За съжаление тази книга сега не е под ръка, но ще е необходимо отново внимателно да разгледаме съответните дефиниции. Така за мен първото значение на понятието тезаурус беше лингвистична и много абстрактна формулировка, която ни позволява да разбираме почти всяка лексикографска конструкция като тезаурус))
Без да навлизам в подробности за вълнуващия процес на развитие на семантиката на тази дума в съзнанието ми в продължение на няколко години, искам само да отбележа, че многостранността на тезауруса беше фиксирана в съзнанието ми само отнеобходимо, когато е било необходимо да се обяснят или сравнят отраженията на „съкровищата“ със „сенките и отраженията“ на други „обитатели“ на езиковия свят, полето на AI и провинцията на семантичната мрежа.
В книгата Tesau

Интересна особеност на тази класификация е, че тезаурусите в схемата са по-ниски по ниво на формализиране от таксономиите, които, за разлика от „купчината съкровища“, винаги имат хармонична многостепенна йерархична организация. Едно бегло търсене не ми позволи да потвърдя първоизточника, но в гъстата гора от диаграми и картинки успях да намеря подобна, но все пак различна диаграма за съответните ключови думи. В него тезаурусът превъзхожда по отношение на неговата оперативна съвместимост, изразителност и, очевидно, формализация.

„Основната характеристика на лингвистичните онтологии е, че те са свързани със значенията („са обвързани със семантиката“) на езиковите изрази (думи, съществителни фрази и т.н.). Езиковите онтологии обхващат повечето от думите на езика и в същото време имат онтологична структура, която се проявява в отношенията между понятията. Следователно лингвистичните онтологии могат да се разглеждат като специален вид лексикална база данни и специален тип онтология. Лингвистичните онтологии се различават от формалните онтологии по отношение на степента на формализация. Следователно се предполага, че разработчиците на такива ресурси разработват йерархия от лексикални значения на естествения език и за по-стриктно описание на знанията за света е необходимо да се сравнят такива ресурси с някои формални онтологии.
Участниците в друг проект OntoWordNet смятат, че не е достатъчно да се извърши формално слепване на ресурс от тип WordNet и формална онтология;значително преструктуриране на оригиналния лексикален ресурс.
Третият начин е да се опитате да разработите единен ресурс, в който и двете части да бъдат балансирани: система от понятия и система от лексикални значения, което се състои в разумно разделяне на тези единици в създавания ресурс и точно описание на техните взаимоотношения. Опит за такъв подход е реализиран в онтологиите MikroKosmos и OntoSem.
3. Заслужава си да видите и статията на Александър Нариняни. Кентавър на име ТЕОН: Тезаурус + Онтология
4. Сред чуждестранните публикации бяха следните:
- Метаданни? Синонимен речник? таксономии? Тематични карти! (Ларс Мариус Гаршол). В статията тезаурусите са поставени по-високо от таксономиите, но по-ниско от онтологиите, умишлено ограничавайки тяхната интерпретация до стандартите на ISO (по наше мнение, SIBID 7.25-2001). В тях тезаурусите са надарени само със синонимични (USE/UF), родово-видови (BT/NT) и асоциативни (RT) отношения. Апогеят на развитието на лексикографа. представени са структури за извличане на информация Тематични карти, на кат. има и стандарти (ISO/IEC 13250:2003) и инструменти за описание.
- http://www.spicynodes.org/reference-semantic.html. И този ресурс обяснява накратко, че тематичните карти са вид семантични мрежи. Има и съответстваща програми
5. Освен това, относно терминологията, можете да използвате ресурса на работната група на симпозиума „Онтологично моделиране“, който се опитва да свърже други свързани понятия.
6. А от ресурсите си струва да разгледате селекция от връзки от един от моите студенти, завършил диплома по темата „Информационни технологии за маркиране на семантични уеб страници“.
Много интересна публикация!
1) Създатели на обществено-политическия тезаурус на българския език(http://uisrussia.msu.ru/docs/ips/n/techno/index.htm) дайте следното определение за него:
Тезаурусът е терминологичен ресурс, реализиран като речник на понятия и термини с връзки между тях. Основната цел на тезауруса е да помогне при извличането на информация: въз основа на връзките на тезауруса, заявката се разширява, навигацията през връзките на тезауруса помага за ясното формулиране на самата заявка.
2) „В същото време на практика онтологията често се отъждествява със съществуващи и широко разпространени модели на представяне на знания (семантични мрежи, рамки, продукти, предикатна логика и т.н.). “
Струва ми се, че основният аргумент за еквивалентността на онтологии и други модели за представяне на знания (рамки, семантични мрежи, концептуални графи и някои други модели) е, че всички тези модели могат да бъдат представени от гледна точка на логиката от първи ред на предикатите (логика от първи ред). Съответно всички те имат еднакво ниво на изразителност като символен език за представяне на знанието. Например? Luger в книгата си „Изкуствен интелект: методи за решаване на сложни проблеми“ дори предоставя алгоритъм за преобразуване на концептуална графика в предикатен език.
3) „Препоръчвам на всички да прочетат учебника на В.Д. Соловьов, Б.В. Добров, В.В. Иванов, Н.В. Лукашевич "Онтологии и тезауруси", 2006 „ Да, отлично ръководство. Предлага се от 2008 г. като курс по Intuit http://www.intuit.ru/department/expert/ontoth/
4) „Метаданни? Синонимен речник? таксономии? Тематични карти! (Ларс Мариус Гаршол) В статията тезаурусите са поставени по-високо от таксономиите, но по-ниско от онтологиите, „
Независимо от вас, аз също попаднах на тази статия вчера. Като цяло съм съгласен с подреждането на таксономията Андрей Филипович
1. Тук подходът, използван встандарти за инф.-търс. тезауруси. В крайна сметка вие също се фокусирате върху това разбиране в работата си. Това обаче е тясно разбиране и няма друго, по-широко понятие в лингвистиката (или по-точно не е широко разпространено). 2. Изброените модели не винаги могат да бъдат представени с помощта на предикатна логика, особено от първи ред. 3. Дадох и този линк) 4. виж точка 1. А таксономията е напълно изродена онтология (защото има само един тип връзка). Мисля, че най-общо казано, разликата между тезаурус и онтология е същата като разделителната линия между компютърната лингвистика (NL процесор) и AI (пълнофункционален ИТ агент). 5. Като цяло разглеждам и тезата, и онт. понятия с широка и неясна семантика, които придобиват специфичност само с допълнителни допускания (например при използване на стандарти).
1. Да, цитирах, за да дам по-конкретна дефиниция на един от видовете тезауруси. Разбира се, тази дефиниция е подходяща само за ресурси, използвани за автоматична текстообработка и задачи за извличане на информация.
2. Кои според вас са точно възможни и кои не? Например, кой елемент от класическата семантична мрежа не може да бъде представен на езика на предикатите от първи ред?
3. Да, съжалявам. Пропуснах този линк.
4. Човек може да разглежда таксономията като изродена онтология. От друга страна, Cimiano в книгата „Онтологично население и обучение от текст“ VB-0Gd3I#v=onepage&q&f=false ) се отнася до таксономия като йерархия от класове в онтология. По този начин, таксономията, от негова гледна точка, еоснова на онтологията. Йерархията на типове в концептуалните графи може също да се интерпретира като таксономия.
„Мисля, че като цяло разликата между тезаурус и онтология е същата като разделителната линия между компютърната лингвистика (NL процесор) и AI (пълнофункционален ИТ агент).“ Да, смятам, че тази преценка е най-близо до истината. Ситуацията обаче се усложнява от наличието на т.нар. лексикални онтологии като OntoWordNet и http://www.w3.org/TR/wordnet-rdf/.
По мое мнение е важно да се разделят езиците за онтологично представяне, като OWL и RDF, и знанията (данните), които се представят с помощта на тези езици. За мен онтологията е формален символен модел на представяне на знания. Може да се използва както за описание на връзката между естествените езикови единици, така и за описание на всяка друга област на знанието. Описанието на тезауруса също е модел за представяне на знания, само че е по-опростен. Отношенията в тезауруса са по дефиниция лексикални и семантични, т.е. свързани с естествения език. Ето защо тезаурусът се използва само за представяне на лексикалния аспект на знанието за домейна, за разлика от онтологията, която може да използва всякакъв тип връзка между класове.
„Като цяло разглеждам и тезата, и онт. понятия с широка и неясна семантика, които придобиват специфичност само с допълнителни допускания (например при използване на стандарти). „
Съгласен. Например, ако използваме стандарта SKOS Semantic Web, за да опишем тезаурус или таксономия (http://www.w3.org/TR/2009/NOTE-skos-primer-20090818/), тогава веднага става ясно как този модел за представяне на знания се различава от напълно функционалната OWL Full онтология (http://www.w3.org/TR/owl-ref/).
Така разработчиците на SKOSобяснете разликата между него и OWL (приблизително съответства на разликата между тезаурус и формална онтология):
Относно модела на сценария, съгласен съм с размитите връзки, но по-скоро имах предвид модели за представяне на знания, базирани на графики. Мисля, че рамковият модел може да бъде описан на езика на предикатите. Единственото нещо, което може да бъде трудно, са ограниченията на стойностите, предполагам. Напълно съм съгласен, че елегантността на представянето в езика на предикатите е ниска, но първоначално говорех за преобразуване в езика на предикатите, за да докажа еквивалентността на изразителността на различните модели на представяне на знания.
Основната част от тази статия е посветена на описанието на експерименти с плъхове. В заключение ще се опитам също така да определя с няколко думи значението на данните, получени върху плъхове, за разбирането на човешкото поведение.