Аналитична и синтетична обработка на информация
Аналитична и синтетична обработка на информация. Вторични документи.
Съвременното общество поставя високи изисквания към професионалисти във всяка област на дейност. Трябва да констатираме факта, че базовите знания, получени в университета, са достатъчни за първите 3-5 години от професионалната кариера. След това време по-голямата част от получената информация става неактуална. За да бъде „на гребена на вълната“, за да остане конкурентоспособен, служителят трябва непрекъснато да актуализира знанията в своята сфера на дейност, т.е. занимават се със самообразование. Процесът на самообучение предполага независима работа на човек за извличане на знания от масив от съществуваща информация, представена както в книжна, така и в електронна версия. Този проблем изисква редица умения и способности за рационална работа с информация. Ключовите моменти включват уменията за търсене на източници на информация, извличане на необходимата информация от намерените източници и обработката й за по-нататъшна употреба. И трите тези умения са тясно свързани помежду си и изискват познаване на техниките за сгъване (разширяване) на информация.
В рамките на миналия урок се запознахте със следните понятия: документ, първичен документ; разгледа структурата на документооборота, видовете и видовете документи. Днес ще разгледате методите за аналитична и синтетична обработка на информация и видовете вторични документи, получени в резултат на това.Освен това ще се запознаете с държавната информационна система, която изготвя библиографска информация.
Документален поток е съвкупност от взаимосвързани документи от различни видове, видове и на различни носители. Документален филмпотокът има сложна структура и удвояването му има лавинообразен характер. В момента не е възможно отделно лице да следи целия обем документи, издадени в който и да е отрасъл на знанието. От древни времена, веднага щом колекция от документи достигне трудно забележим и управляем размер (т.е. голям обем), се наложи да се представи в сбита форма. Тогава започнаха да се появяват прототипите на съвременните методи за сгъване на информация.
Информационното сгъване е метод за представяне на информация в специална икономична знакова форма, която допринася за нейното цялостно и рационално използване.
Свиване (разширяване) на информация– промяна във физическия обем на съобщение (документ) в резултат на неговата аналитична и синтетична обработка, придружена от намаляване (или увеличаване) на информационното му съдържание.
Примери за високо ниво на обобщение на големи фрагменти от текстове са заглавия и подзаглавия в документи, фрази в анотации, резюмета за доклади и др.
Сгъване на информация- имаме работа с текст, съобщение, което не е ограничено до конкретен документ. Трансформираме текста по един или друг начин, за да намалим (или увеличим) физическия му обем, оставяйки необходимите „семантични етапи“, „следи“ в него. Присгъване на документаполучаваме нов документ (обикновено вторичен). Когато сгъвате документ, отделни фрагменти могат да бъдат извлечени от него на „нулевото“ ниво на сгъване на информация. В областта на информационните комуникации проблемът със сгъването на човечеството се е сблъскал в най-ранните етапи от развитието на цивилизацията, когато са мислили как да изразят мислите си кратко и ясно, така че „думите да са тесни, но мислите са просторни“. Първоформалните методи за сгъване на информация възникват с появата на първите организирани хранилища на писмени паметници (библиотеки и архиви) и това се дължи на желанието да се намерят най-адекватните форми за отразяване на състава на фондовете и съдържанието на информационните източници, съхранявани в тях във всяка търсачка (от списъци с препратки на шумерска глинена плоча и "Таблици" на Калимах до съвременни автоматизирани масиви от информация).
Свиването (разгръщането) на информация (документ) се извършва чрез методи, които са в основата на всички видове познавателна дейност на хората - анализ и синтез.
АНАЛИЗ(от гръцки "разлагане") - метод на научно изследване, състоящ се в разделянето на цялото на съставните му елементи.СИНТЕЗ(от гръцки "комбинация, комбинация") - метод за изследване на явление в неговото единство и взаимовръзка на части; обобщаване на информацията в едно цяло от данни. Анализът и синтезът са взаимозависими и взаимно преходни операции.
В областта на информационната дейност методите за анализ / синтез на информация (документ) получиха определението за аналитична и синтетична обработка (обработка).
Аналитична и синтетична обработка (ASP)- преобразуване на текста (документа) в процеса на неговия анализ и извличане на необходимата информация, както и оценка, сравнение, обобщение (синтез) и предоставяне на информация във форма, съответстваща на заявката (нуждата).
В резултат на обработката документът придобива нови качества, които допринасят за неговата идентификация, търсене и разпространение. Когатосвием документаполучаваме нов документ. В идеалния случай задачата за сгъване на документ е да се създадат няколко произволни текстове, които са по-малки по обем от оригиналния текст, като същевременно се запази неговият основен текст.съдържание.
Има шест основни типа коагулация на информация:
Всеки тип сгъване, в резултат на което се формират самостоятелни серии от документи, се различава по предназначение, ниво на сгъване, използвани методи за анализ/синтез на информация. Всички те обаче са обединени от един принцип, формулиран в "златното правило" на комуникацията - ефективната комуникация е възможна само при оптимално ниво на съсирване: под това ниво (с прекомерно съсирване) съобщението става неразбираемо за потребителя на информация, когато това ниво е надвишено (прекомерно разширяване) - скучно, тривиално, в резултат на което степента на възприемане на съобщението намалява.
Най-висока степен на съкращаване на документа се постига при индексиране - описване на съдържанието и формата на документа с помощта на един или друг информационен език.
Индексирането е процес на изразяване на съдържанието на документ и/или заявка на език за извличане на информация (ILL).
Появата на първите системи, предназначени за съхраняване на документална информация с възможност за нейното търсене, т.е. библиотеки, доведе до необходимостта от създаване на специални езици за извличане на информация, които са различни от естествените езици. Тези езици са предназначени да премахнат някои от характеристиките на естествения език, които биха могли да затруднят търсенето (например полисемия, омонимия и т.н.). Изкуствените езици, създадени на базата на естествени езици, се оказаха формализирани езици, но, подобно на естествените езици, те имат своя собствена азбука, речник и граматика.
IPL е изкуствен формализиран език, създаден на базата на естествен език.
В резултат на индексирането на документа се присвояваизображение за търсене на документ (DOI), а на заявката се присвояваизображение за търсене на заявка (POZ).
Целта на POZ и ADL е следната: всистемите за извличане на информация, за да определят (изберат) документи, свързани с дадена заявка, те обикновено сравняват не самите документи със заявките, а техните изображения за търсене.
Система за извличане на информация (IPS) - набор от масив за извличане на информация, език за извличане на информация, правила за използването му, критерии за издаване и технически средства, предназначени за извличане на информация.
Уместност - официално съответствие с AML и POS.
Колкото по-професионални и подробни са AML или PHA, толкова по-вероятно е да се изберат източници на информация, които са уместни (смислено уместни) нужди.
Има три основни принципа на индексиране -класификация (систематизация), субектизация, координатно индексиране.Всеки тип индексиране се реализира с помощта на специално разработен IEL.