Друго лице на интернет

Споделете в социалните мрежи:

Всеки обича интернет. Бизнесмените имат специално чувство за мрежата - тя опростява търговията. Мошениците също обичат мрежата - в нея им е много по-лесно да се представят като бизнесмени. А терористите предпочитат мрежата - тя елиминира нуждата от сигурни къщи и скривалища за обмен на шифри. Тийнейджърите по принцип са луди по Мрежата – тук лесно можеш да се правиш на „готин“ кибертерорист. Тайните служби не останаха встрани от общото удоволствие - с помощта на мрежата за тях е много по-лесно да хващат тийнейджъри, които се представят за терористи, като по този начин подобряват отчетността. Политически функционери се втурват към „празника на любовта”: едни за да вдигнат рейтинга си, други в търсене на неангажираща, но доходоносна и перспективна позиция на „регионален шеф на Интернет”. Адвокатите бързат да "заложат" парцели в празното правно поле на виртуалната реалност - длъжността юрисконсулт на "шефа на интернет" примамва с чудесна комбинация от потенциална безотговорност и висок престиж. Над "океана на любовта" "Негово Величество Съдържанието" лети като горд буревестник, издигайки най-"неистовите любители на мрежата" - уеб-дизайнери до непостижими висоти.

Накратко, Мрежата се превърна в обект на всеобщо обожание от онези, които или не знаят нищо за нея, или правят пари за тези, които не знаят нищо за нея. Непосредствените „виновници“ за това явление са много по-спокойни за интернет: военните не харесват мрежата поради високата й уязвимост към влиянието на „потенциален враг“, академичната наука за неизразителността на инструментите за генериране на съдържание (изследователските и научни сайтове обикновено са проектирани повече от скромно - само минималната необходима навигация, а съдържанието е „скрито“ вpostscript или pdf файлове).

Неформална история на езиците за маркиране на документи

"И имаше рай. И на седмия ден от сътворението Бог създаде езика HTML. И Бог видя, че е добър. Но един математик дойде при Бога и попита: "Господи, как мога да напиша формули върху това?" Тогава Бог излезе с разширението HTML MathML. и там - инженер по електронни схеми, и архитект, и хидроинженер, и счетоводител, и топограф, и военни, и лекари, и изобщо всичко, всичко, всичко ... И Бог помисли още седем дни и излезе с XML, и видя, че не е добре, но така или иначе нищо нямаше да бъде по-добре. И Господ се разстрои, даде XML на молителите и ги изгони от рая. И това беше четиринадесетият ден.

Неформалността си е неформалност, но в основата си всичко е точно това. С нарастващата популярност на мрежата изискванията към езиците за маркиране на документи (DML) нарастват катастрофално: от една страна, „абсолютният хипертекст“ е фундаментално необходим, от друга страна, той е не по-малко фундаментално невъзможен.

„Разширяемите“ JRD (от типа XML) не са решение на проблема, по-скоро, напротив, те пораждат нов проблем за сегментиране на информационното пространство на мрежата: дефинираните от потребителя езикови елементи изискват допълнителна софтуерна поддръжка. От гледна точка на потребителя на информационни ресурси това означава едно - можете да използвате само документа, за който има необходимия софтуер. Цялото очарование на информационната свобода на интернет веднага се губи. Но все още има проблеми с националните езици и валути, с много шрифтове, с различни мерни единици ... И накрая, има ПРОБЛЕМ № 1 - повече от 90%информационните ресурси (по много оптимистични оценки) на цялото човечество се съхраняват в "най-архаичното представяне" - на хартия. Трансформирането им в YRD-форма изисква както астрономически средства, така и принципно невъзможни програми за разпознаване (поради очевидната причина за фундаменталната невъзможност за създаване на "абсолютен хипертекст"), но това не е основното. Основното е, че няма нужда от тази трансформация - хората се нуждаят от информация, а не от програми. И за хората е важно презентацията да осигурява удобство за четене, съхраняване и достъп до информация, докато формата на самата презентация не ни интересува (естествено, в случай, че имаме прости инструменти, които ни позволяват да използваме тези информационни ресурси).

Единственият разумен изход от тази ситуация е документите да се конвертират в един от растерните графични формати, които се използват широко в мрежата за "лечение на болести" от NRD. Този подход има много предимства, но не по-малко недостатъци. Например, ограничената честотна лента на комуникационните линии и капацитетът на дългосрочната памет на компютрите изискват използването на компактни ("опаковани") графични формати със загуба на качество (или ниска разделителна способност). Съответно създаването на добре четим документ в един от тези формати е голямо изкуство и не може да се говори за някакви масови приложения. Растерните формати, които осигуряват представяне на документ без загуби (например tiff), не са подходящи поради огромния си размер - страница A4, сканирана с разделителна способност 300 dpi, може да заеме няколко десетки мегабайта в тази форма. Дори при постоянно намаляващите цени на дисковете с голям капацитет, такива обеми изглеждат, меко казано, някак прекомерни.

Цялата тази история започва през 1800 г. баронЖан-Батист Фурие, който се завръща от Наполеоновата кампания в Египет към научна работа, в своята забележителна статия „Аналитичната теория на топлината“ използва безкрайна последователност от композиции от тригонометрични функции – синуси и косинуси, за да представи периодична функция. Впоследствие това представяне се нарича спектър, а методът за получаването му се нарича преобразуване на Фурие, което днес е един от основните инструменти в областта на цифровата обработка на сигнали. Но не и единственият - спектрите, определени от преобразуването на Фурие, не винаги отговарят на нуждите на учените и инженерите. Първо, анализът на Фурие "работи" добре с периодични функции, но ако говорим за непериодично (имащо характер на "взрив") явление, много важна информация за времето се "губи" в спектралното представяне на Фурие.

Формулиран е (и разрешен от физическа гледна точка) интересен "парадокс на Фурие", който ясно показва логическите "клопки" на спектралното преобразуване на Фурие. Да кажем, че имаме електрическа крушка, ключ и източник на енергия, които „работят“ с безкрайно висока скорост. Това предположение означава, че лампата започва да свети веднага след включване на захранването, без никакво (дори произволно малко) забавяне. Съответно, излъчването на електрическата крушка се променя по прост закон: първо се изключва и излъчването е равно на 0, в момента tx крушката се включва и излъчването, да предположим, е равно на 1. Спектърът на Фурие на такъв скок е безкраен набор от "излъчване" (същите синуси и косинуси), които съществуват "по всяко време на Вселената" (във времевия диапазон - M секции и за всеки 2 (или в по-общ случай - за 2 N ) процедури за изместване на вълната "майка", има една процедура за времево мащабиране ("разтягане"),се нарича дискретен уейвлет анализ.

Съществува и така наречената непрекъсната вълнова трансформация, при която операциите на изместване, в съответствие с името на метода, се извършват от единични (по отношение на анализирания цифров сигнал) времеви точки по цялата времева ос, а операциите за мащабиране на времето се коригират въз основа на изискванията за качество на резултата от трансформацията.

Авторът умишлено е пропуснал същността на математическите операции, извършвани върху вълните и сигнала по време на трансформацията - тук не може да се мине без "кошмарни" формули с интеграли и дори след това кратко запознанство най-безстрашните читатели ще могат сами да се запознаят с теорията на вълните (много добра колекция от връзки към уеб ресурси, посветени на вълните, е събрана на dmoz.org/Science/Math/Wavelets /). Всички тези опити "на пръсти" да се обяснят нещата колко сложни, толкова интересни, надявам се, ще помогнат за облекчаване на симптомите на първата "шокова реакция" при задълбочаване в математическата джунгла.

Назад към реалността

Вълничките са сравнително нова теория и, поне на хартия, са красиви. И всяка красива теория със сигурност трябва да дава полезни практически резултати. Уейвлет трансформацията е много подходяща за решаване на проблеми, свързани с обработката на звук и изображение (все още има много приложения, в които достойнствата на уейвлетите вече не се съмняват дори сред най-агресивните скептици), толкова добре, че законодателят на модата в областта на цифровата обработка на сигнали, Analog Devices, произвежда серийно "уейвлет процесори" от семейството ADV601, на които вече се създава голямо разнообразие от устройства (между другото, ADV601 чиповете са в скъпи и, както всички продукти на Analog Devices, се поддържат перфектно от компанията, например цената на модул заразработката на приложения с помощта на тези чипове е само $199).

В контекста на тази статия, добрата производителност на вълновата технология представлява интерес предимно от гледна точка на интернет приложенията. Проблемите, които възникват при опит за прехвърляне на големи "хартиени" архиви, вече бяха споменати. И тук на помощ идват абстрактните вълни, по-точно не те самите, а софтуерни продукти, базирани на компресори на вълни.

Има няколко реализации както на графични формати, така и на програми за пакетиране на вълни, но днес само едно решение може да претендира за ролята на масово необходима реификация на теорията на вълните. Говорим за едноименния формат на данни и софтуерни инструменти, наречени Dejavu, разработени от изследователските лаборатории на известната AT&T (ако седите на компютър, свързан с интернет, докато четете тази статия, отидете на dejavu.research.att.com без да губите време и вземете всичко необходимо за работа с данни в този формат). За чест на AT&T, компанията продължава активно да насърчава разработването на софтуер с отворен код и предоставя на разработчиците на софтуер безплатна версия на Reference Library (библиотека на езика за програмиране C++), която ви позволява да вграждате програми за декомпресиране и визуализация на файлове Dejavu в приложения.

И така, Дежаву. На пръв поглед нищо особено: добре, нов формат за опаковане на графични растерни файлове, добре, добре поддържан и създаден от добре известна компания. Но си струва да опитате само веднъж... Софтуерен компресор, оптимизиран за обработка на сканирани изображения, "компресира" файлове от 20-30 мегабайта до ... единици (в най-лошия случай десетки) килобайта. Най-интересното нещо се оказва след операцията по декодиране - оригиналната резолюцияинформативна част от сканирания файл... се възстановява. В същото време скоростта на декомпресия може да се нарече "моментална" дори на скромен Pentium 200 MHz.

Информативната част на изображението в AT&T правилно означава висококонтрастните компоненти на "изображението", например черен текст, формули, диаграми на бял фон - ако разделителната способност по време на сканиране е 300 dpi, Dejavu честно ще го възстанови. Резултатът надхвърля всички очаквания: файловете Dejavu заемат много по-малко място от техните HTML аналози (това твърдение само изглежда безспорно) и не налага изисквания към системната среда (например шрифтове). Най-важното е, че Dejavu абсолютно не се интересува какво съдържа прословутото съдържание: диаграми, формули, ръкописен текст, детски рисунки се компресират от него с почти същата ефективност.

Сега нека приемем за момент, че няма езици като HTML/XML, а само Dejavu (или нещо по-ефективно, но с подобна цел), разпознаватели на знаци и векторизатори (софтуер, който в идеалния случай осигурява автоматично преобразуване на растерни изображения във векторен формат). Нека има повече средства за организиране на хипервръзки (или XML, или вграденият механизъм за тяхната поддръжка, внимателно предоставен от самия AT&T, може да бъде полезен тук). Резултатът е компактна, проста и ефективна алтернатива на съществуващата HTML организация на мрежата. „Електронната хартия“ на формата Dejavu предоставя редица предимства: малки и информативни файлове, много прост браузър, който може да работи на всяка платформа, възможност за използване на фрагменти от разпространени документи (имате нужда от текстова фраза от файла Dejavu - насочете я към програмата за разпознаване и след това я използвайте във вашия текст, подобно на векторизираните изображения), минимални разходиза създаване както на нови документи (представени например във формат tiff), така и за прехвърляне на старо, „хартиено“, но безценно съдържание в новата технология. Между другото, както програмите за разпознаване на знаци, така и векторизаторите се разработват активно от AT & T ... като част от проекта Dejavu.