Как работи механизмът за анализ на съдържанието

Когато възстановява изтрити файлове, Content-Aware анализът използва алгоритъм за търсене на подпис, за да идентифицира конкретни типове файлове. Това означава, че стандартните файлови подписи се използват за откриване на самите действителни файлове, докато техните заглавки се анализират, за да се определи дължината на файловете.

Въпреки това, не всичко е толкова просто. Плавната работа на алгоритъма може да бъде усложнена в няколко ситуации, например при работа с двоичен файлов формат с висока стабилност на структурата и с текстов формат без никаква структура.

Откриване на JPEG изображения

JPEG файловете се идентифицират лесно и лесно се анализират. Форматът е добре документиран, така че анализирането на заглавката на файла обикновено е лесно. Нека разгледаме например типичен JPEG файл.

JPEG файловете имат отличителен подпис и добре структуриран формат, което ги прави доста лесни за откриване. Всички JPEG файлове започват с производна стойност FFD8 и завършват със стойност FFD9. В даден тип файл тези надписи могат да се използват многократно за определяне на миниатюри в различни размери.

Например Canon EOS 5D създава JPEG файлове със следната структура.

Откриване на текстов файл

Текстовият файлов формат е точно обратното на графичните формати. Тъй като текстовите файлове изобщо нямат стабилна структура, намирането им е доста трудно, но възстановяването им е лесно като белене на круши. Дори фрагментирани текстови файлове могат да бъдат възстановени (при успешна идентификация) и обединени в един файл, ако е необходимо. Няма да има затруднения с файловите заглавки или системните структури.

Понякога, въпреки че официалните заглавки на файлове не са налични (например за текст или HTML файл), тези файлове все още саможе да се възстанови. В случай на текстови документи, инструментът за възстановяване на данни анализира блоковете от данни, опитвайки се да разбере дали блоковете принадлежат към съдържанието на текстовия файл. Решението се взема въз основа на анализа на набора от символи на файла. Ако конкретен блок от данни съдържа предимно ASCII знаци от известен набор от знаци (напр. западноевропейски или Unicode, или арабски и т.н.), се счита, че блокът принадлежи към текстов файл. Краят на такъв текстов файл обикновено се определя след появата на определен брой не-ASCII символи (двоични данни).

Откриване на XML и HTML документи

XML и HTML документите са структурирани по същия начин като текстовите файлове. По правило те започват с един и завършват с други тагове. Докато няма ясен механизъм за търсене на двоични подписи, XML и HTML документите могат да бъдат открити чрез търсене на отделни тагове (например начални тагове , , , крайни тагове: