DjVu книга - създател за начинаещи

DjvU-Making за начинаещи

Това ръководство се опита да ръководи целия процес на създаване на пълна djvu книга, от обработката на сканирани изображения (сканирания) на страници до създаването на електронно съдържание. Разглеждат се въпросите за разделяне на текстови и графични компоненти чрез програмата ScanKromsator, обработка, djvu-кодиране и вграждане на илюстрации в готов djvu-файл с текстове според разработения метод за поставяне на илюстрации (MVI, методът на разделно кодиране). Тази техника позволява да се постигне висококачествено запазване на илюстративния материал и компактност на djvu-книгата поради оптималното кодиране на текстовите и графичните компоненти на обработените книги (списания).
Материал: страници с черно-бели (ч/б), полутонови и/или цветни (наричани по-нататък полутонови/цветни) илюстрации.
Описание. Това ръководство се опита да ръководи целия процес на създаване на пълна djvu книга, от обработката на сканирани изображения (сканирания) на страници до създаването на електронно съдържание. Разгледани са въпросите за разделяне на текстови и графични компоненти с помощта на програматаScanKromsator, обработка, djvu-кодиране и вграждане на илюстрации в готов djvu-файл с текстове според разработения метод за поставяне на илюстрации (MVI, метод на разделно кодиране). Тази техника позволява да се постигне висококачествено запазване на илюстративния материал и компактност на djvu-книгата поради оптималното кодиране на текстовите и графичните компоненти на обработените книги (списания). Можете да се запознаете подробно с концепциите, методите на djvu кодиране, както и MVI наhttp://sourceforge.net [1].
Най-общо, същността на създаването на висококачествен и компактен djvu-файл се изразява в отделно кодиране (компресия) на едноцветен текст, рисунки И растерни илюстрации (полутонови, цветни) чрез подходящи алгоритми. В същото време информацията за едноцветен текст и изображения се въвежда в слоевете маска и преден план, а информацията за растерни изображения се въвежда във фоновия слой. Във всеки слой информацията се компресира максимално благодарение на разработените и подобрени алгоритми. Към днешна дата проблемът с правилното автоматизирано разделяне на текст и изображения и тяхното кодиране в съответните слоеве на djvu книга не е напълно решен. Според MVI се предлага да се използва ръчно разделяне на текстовия слой и илюстрациите, последвано от обработка и вмъкване на илюстрации във фоновия слой. Един от съпътстващите проблеми е наличието на растер в изображенията и изборът на метод за премахването му. Няма недвусмислено решение при избора на достъпен и висококачествен метод за премахване на растер, съществуващите методи за замъгляване на растер изискват визуален контрол и изобретателност при избора на оптимални параметри и последователност от действия. Но повече за това по-късно.
Ще дам средните размери на djvu-страниците, получени от MVI, в зависимост от вида на съдържанието: текст, черно-бели рисунки, полутонове или цветни илюстрации (вижте таблицата). Изчисленията условно приемат, че текстът, фигурите и илюстрациите заемат равни части от страницата, например 50% текст + 50% черно-бели фигури = 15-35 Kb. Отбелязвам, че размерът на кодираните илюстрации до голяма степен зависи както от характеристиките на цветовата палитра, така и от параметрите на приложеното трептене.
Таблица с размери на djvu страници с различно съдържание, Kb
И така, кодирана в djvu книга за наука и технологии с черно-бели рисунки (10% от цялата книга)приблизително 300 страници по размер ще „тежат“ ([5-20] * 0,9 + [25-50] * 0,1) * 300 = 2,1-6,9 MB. Илюстровано списание (например Sabrina) с текст (40%) и 50 страници ще бъде кодирано в ([150-500]*0,6 + [5-20]*0,4)*50 = 4,6-15,4 Mb, т.е. средно - 10 MB, което се потвърждава от практиката.
Тази техника е приложима за сканирания на хартиени публикации с черно-бели, сиви или цветни рисунки или изобщо без тях (виж Фиг. 1).

Ориз. 1. Пример за типично сканиране на разширена книга, която има черно-бял чертеж и илюстрация в полутонове
Предполага се, че оригиналните сканирания имат разделителна способност 300 dpi, въпреки че може да имат други стойности - 400, 600 dpi. След обработка и кодиране във формат djvu, изходът е файл, състоящ се от текстови изображения с резолюция 600 dpi и вградени в тях изображения с първоначална резолюция 300 dpi. Авторът предпочита да сканира хартиена литература с разделителна способност 300 dpi, защото: 1) качеството на текста и илюстрациите се поддържа на подходящо ниво; 2) достига се оптималното време за сканиране и сканиранията на изображения заемат приемливо количество памет на твърдия диск (книга с 300 страници се сканира за целия разпространител средно 3 часа и отнема около 1,5 GB). Чрез намаляване на разделителната способност на изображения на чертежи и илюстрации от оригиналните 300 dpi до 200 и по-ниски, ние значително влошаваме крайното им качество, тъй като изображенията претърпяват силно замъгляване по време на процеса на кодиране, малките детайли се презаписват, които вече бяха намалени до невъзможно. Запомнете - тази djvu-книга е добра, която практически не се различава от оригинала!
Методологията се състои от стъпки, които имат ясна последователност:
Стъпка 1. Подготовка за обработка на сканирания вSC. На този етапзададени са задачи за обработка на сканирания и са посочени техните параметри:
- дизайн и параметри на страницата - задаване на изходен формат, цветова палитра, размер, име на файл, разделителна способност, разположение на съдържанието на страницата (т.е. полета), ротация, рязане на отделни страници;
- обработка на текстови изображения с цел привеждането им в черно-бял вид с максимално запазване на оригиналността и яснотата на контурите на текста. Използват се операции: почистване от малки отпадъци, замъгляване, изглаждане, изостряне, настройка на осветлението, промяна на контраста и яркостта и др. Според изискванията на потребителя се избират необходимите операции и се конфигурират параметри за тях.
Стъпка 2. Разделяне на илюстрациите (ч/б, сива скала, цветни) в зони за задаване на индивидуални параметри на обработка. Същите действия могат да се прилагат към зони - почистване от малки отпадъци, замъгляване и др.
Стъпка 3. Автоматична обработка на всички страници от програмаSK.
Стъпка 4. Комбиниране на зони от черно-бели рисунки с текст.
Стъпка 5. "Козметична" последваща обработка на обработените страници.
Стъпка6. Обработка на полутонови/цветни илюстрации (замъгляване, тонална корекция, запълване на боклук, бели петна и др.).
Стъпка 7. Оформяне на страници само с илюстрации в сива скала/цветни илюстрации.
Стъпка 8. Djvu кодиране на всички страници с изключение на страниците с илюстрации.
Стъпка 9. Привеждане на страниците с илюстрации към оригиналната разделителна способност (резолюция при сканиране).
Стъпка 10. Djvu кодиране на страници и тяхното сливане (залепване) с djvu текстови страници.
Стъпка 11. Създаване на OCR слой въз основа на текстови страници и вграждането му в djvu книга.
Стъпка 13. Създаванеелектронно съдържание в окончателната djvu-книга с помощта на програматаDjvu Bookmarker.
Последователността на стъпките е показана на фиг. 2. Видът на стъпката също е посочен по отношение на автоматизацията.
В зависимост от вида на хартиения носител, неговото съдържание, както и изискванията на потребителя, някои стъпки от методологията могат да бъдат пропуснати. Приложението показва стъпките за обработка на обичайните видове хартиени публикации: научна и техническа литература, илюстровани списания, книги без снимки и др.
Статията е илюстрирана с примери, придружена от съвети и е насочена към начинаещи потребители ентусиасти и, надявам се, ще представлява интерес за опитни майстори.
Успех в начинанията и експериментите!

Ориз. 2. Общата схема за създаване на djvu-книга, в зависимост от наличието на илюстрации от различни видове в нея. Посочено е приблизителното време, изразходвано за изпълнението на различните етапи (за компютър с процесор 2,3 Hz, 1 GB RAM)