Дигитализиране на огромни архиви Как нашите технологии помогнаха на библиотеката Hartley, Официален блог на ABBYY

огромни

Дигитализиране на огромни архиви: как нашите технологии помогнаха на библиотеката Хартли

дигитализиране

Неотдавнашните нещастни събития в научната библиотека INION в Москва предизвикаха вълна от дискусии относно важността на дигитализиране на библиотечните колекции. Наистина, в ерата на дигиталните технологии можем не само да запазим редки публикации, но и да ги направим достъпни за четене от всички - за никого не е тайна, че в Интернет можете да намерите не само отделни книги (или събрани произведения), но цели библиотеки. Например една от най-добрите изследователски библиотеки в Обединеното кралство, библиотеката Хартли на университета в Саутхемптън, започна дигитализиране на своите архиви през 2010 г. И нашето решение за автоматично разпознаване на документи ABBYY Recognition Server й помогна в това. Ако искате да научите повече подробности, заповядайте под кат.

Технически подробности

Проектите за дигитализация на данни в Hartley се обработват от отделно звено - LDU (Library Digitization Unit). Разполага със 7 скенера (6 портретни и 1 ред) и ABBYY Recognition Server за обработка на текст и изображения. Процесът се управлява от уеб приложението Goobi Production Workflow, софтуерен пакет с отворен код, възприет от най-големите европейски библиотеки за дигитализиране на културно наследство в „индустриален“ мащаб.

Благодарение на отворения API на Recognition Server беше възможно лесно да се интегрира решението с Goobi и процесът на цифровизация започна да изглежда така:

  • Всеки LDU скенер се управлява от специално обучен оператор. Веднага щом сканира напълно книгата или документа, Goobi се присъединява към процеса. Програмата задава задачата на Recognition Server да обработи готовия стек от файлове. Няколко оператора плюс много документи и се оказванещо като конвейер и Goobi наблюдава всички като голям брат.
  • Recognition Server автоматично обработва посочените файлове: разпознава, конвертира, индексира. Goobi проверява задачата и резултатът се изпраща в Интернет.

Благодарение на тази комбинация библиотеката на Хартли е обработила повече от два милиона изображения, а потребителите на световната мрежа имат достъп до доста необичайни PDF колекции.

Какво беше цифровизирано?

Хартли е публикувал употребявани рядкости онлайн, от тематични брошури и парламентарни законопроекти от 19-ти век до докторски дисертации и антикварни книги за плетене. Всичко е достъпно в PDF с възможност за търсене и съществува в множество уеб ресурси.

архиви

дигитализиране