Невидима мрежа, дълбока мрежа, Андрей Масалович, разведка
За "Невидимия интернет" и бързо течащото време
Само миналата седмица вицепрезидентът на IBM за извличане на данни съобщи, че през последните 6 години обемът на документите в Интернет се е увеличил десетократно. През следващото десетилетие той прогнозира увеличение от около 25 пъти. Документът се отнася до текстови и статистически файлове с ограничен размер. (Тоест голяма книга или досие е поредица от взаимно свързани документи). Според него по-голямата част от тези документи, особено по отношение на търговска, научна, патентна информация, ще се отнасят до „Невидимия интернет“. Ще разгледаме тази тема по-подробно в поредица от публикации, посветени на проекта Watson и посоките на неговото приложение в различни области на дейност.
В тази връзка можем да кажем, че в съвременните условия като цяло не е много коректно да се сравняват обемите информация, намиращи се в така наречената „Отворена мрежа“ и в „Невидима мрежа“. Всъщност пред очите ни протича процесът на разслояване на Интернет на няколко слабо свързани сегмента или по-точно на слоеве.
Достъпен слой, доминиран от търговия, развлечения и справочна информация. Традиционният Web 1 все повече се изражда в него.
И накрая, активно възникващият, бързо развиващ се, придобиващ собствени инструменти за работа „Невидим интернет“, свързан със знанието. Както многократно съм писал, знанието е коренно различно от информацията по това, че е информация, предназначена за конкретно използване и предполагаща като условие за това използване професионално и квалификационно ниво.
Невидима интернет топология
Традиционната топология на "Невидимия Интернет", идваща от К. Шърман иG. Price, можете да видите в съкратен вид тук.
Предложената по-долу топология е развитие на идеите, изложени за първи път от Дмитрий Шестаков в неговата дисертация.
„Невидимата мрежа“ може грубо да се раздели на „персонализирана мрежа“, „неиндексирана мрежа“ и „дълбока мрежа“.
„Неиндексиран интернет “. Преди това, в дните на Sherman-Price, значителна част от неиндексирания интернет бяха страници без html формат, т.е. pdf, djva, exe файлове и др. Досега търсачките са се научили да индексират тези файлове и този проблем е изчезнал.
Днес следните уеб страници и сайтове попадат в неиндексираната част на "Невидимия Интернет":
Страници, когато се създават, или robots.txt се вмъква в URL адреса, или се регистрира мета таг, или NOINDEX.
Страници, които използват елементи на флаш анимация, станали популярни сред интернет дизайнерите напоследък;
Някои от динамичните сайтове, направени с определени неточности на двигатели като Joomla;
Страници на сайта, които по една или друга причина нямат хипервръзки от други страници на сайта. В същото време тези страници по правило нямат ограничителни мета тагове и записи в URL адреса. В много случаи такива страници са налични в големи портали и сайтове и се използват или за нуждите на администраторите, или за съхраняване на различни видове архивна и друга информация;
Позволете ми да предложа друга концепция за полуиндексиран сайт. Това е сайт, който е регистриран в директориите на търсачките и съответно при въвеждане на заявка по темата на сайта в реда за търсене, той се отваря. Но въпреки това, поради характеристиките на търсачките, обсъдени по-горе, сайтовете не попадат не само в първите десет, но често и в първите петдесет страници.издаване, въпреки че съдържат необходимата и полезна информация.
Причините за такова полуиндексиране се крият както в изключително бързия растеж на броя на сайтовете, известно несъвършенство на алгоритмите за търсене, така и в някои търговски аспекти на работата на най-популярните търсачки. Търсачките обслужват аудиторията и истината е, че особено през последните пет години не само в България, но и в много други страни по света, в интернет се появи публика, която търси не информация за сравнителните предимства на технологиите, а разписание на влаковете. И търсенето не се извършва от човек с познания и достатъчно образование, а от хора с минимална подготовка.
Значителна и много интересна част от „Невидимата мрежа“ от гледна точка на конкурентното разузнаване е „Deep Web“ или както обикновено се нарича „Deep web “. Към него, следвайки Дмитрий Шестаков, включвам сайтове с динамични страници, които изискват попълване на различни видове уеб форми, както и в някои случаи специални пароли, вход и др.
Самата динамична страница присъства само на сървъра и се генерира в съответствие с заявката на потребителя и се показва като нормална уеб страница. Сайтове, където не са предвидени специални форми за такова генериране на уеб страница, обикновено се индексират от търсачките. В случай на уеб формуляр, генерирането става само след попълването му. Съответно значителна част от тези страници не се индексират. Страниците, съдържащи пълни бази данни, свързани с платени сайтове, не се индексират. Най-ясно това може да се демонстрира чрез примера на добре познатия уебсайт HeadHunter. Интерфейсът на сайта е индексиран, след което при ръчно попълване на определени уеб формуляри можетеполучите част от информацията безплатно и накрая, когато въведете потребителско име и парола, които идентифицират потребителите, които са платили за услугата, получавате пълната база данни. Други бази, като например Integrum, се изграждат в по-тежък режим.
С други думи, „дълбоката мрежа“ е мрежа от бази данни, показвани от динамични страници, които изискват попълване на така наречената форма за търсене и допълнителни форми, потвърждаващи идентификацията или плащането за генерирането им. Общо тези формуляри се наричат уеб формуляри.
Инструменти и технологии за работа в "Невидимия Интернет"
Очевидно, тъй като „Невидимият Интернет“ не е само за конкурентно разузнаване, но и за огромното мнозинство от търговци, ловци на хора, огромен отряд от изследователи и учени, трябва да се появи най-интересната част от Интернет, инструменти и технологии, които позволяват работа в тази част на мрежата.
Както каза по друг повод известният Пол Бернанке, САЩ разполагат с технология за решаване на проблемите си – това е печатарска преса. Ето защо, следвайки "мъдрите" съвети на г-н Бернанке, дори и при липса на печатница, която да работи в много сегменти на "Невидимия Интернет", единственият начин е просто да платите пари и да получите достъп до съответните бази данни. Единственото нещо е да знаете кой ще даде първокласна информация, а преди това и да намерите места, където се предоставя тази информация. Надявам се, че поне при решаването на някои практически проблеми Intelligence ще окаже някаква помощ.
За работа с неиндексирания Интернет има редица софтуерни продукти. Пример е http://www.kbcrawl.co.uk/ Но най-добрата програма в света за работа с неиндексираната част на "Невидимия интернет" е програмата на АлексейMylnikov SiteSputnik + Invisible, което напълно ви позволява да направите неиндексирания интернет видим. Освен това експериментите показват, че по-нататъшното развитие на програмата ще може да реши проблемите с предоставянето на видимост и безплатната част на "дълбоката мрежа". Същото търсене може да се извърши от специални версии на семейната програма Avalanche на Андрей Масалович.
През 2006 г. Google получи патент за търсене в база данни чрез интерфейси на формуляри. Въпреки това, както показват проучванията на Дмитрий Шестаков, по отношение на сайтовете Amazon.com и т.н. Google индексира не повече от 10% от обектите, съдържащи се в базата данни, използвайки този алгоритъм. Наскоро повторните тестове от моите специалисти показаха само леко увеличение до малко над 15-17% на този показател.
При тези условия някои компании, като Brightplanet, прилагат дълбоко уеб търсене като услуга.
В същото време се развиват редица търсачки, свързани основно с текстови публикации в различни области на бизнеса, науката и технологиите, които съм изброил в секцията DEEP WEB на менюто Intelligence. Всъщност това са търсачки, които незабавно отиват в конкретни бази данни и извършват търсения в съответствие с попълнения уеб формуляр.
Може би най-обещаващата област на дълбокото уеб търсене са технологиите за обединено търсене, разработени от Deep Web Technologies (DWT), които са описани подробно в публикации в раздела СОФТУЕР И УСЛУГИ.
Като цяло днес има необходим набор от програми и технологии, които при наличието на точно поставена задача могат да помогнат на конкурентно разузнаване, специалист в определена бизнес област, използвайки методи на конкурентно разузнаване, както и на учени, дизайнери и разработчици да намерят практически необходимата информация в„Невидим интернет“.