Събиране и обработка на данни

След поредица от наши статии за големи данни и събиране на данни (връзки - Анализ на пазара на недвижими имоти, Прогноза за заплати по длъжностна характеристика), получихме куп кандидатури за нови скрапинг проекти. Клиентите искат да събират всичко и всичко - от данни за посетени страници и директории на състезатели, до данни за разхождащи се кучета (имаше предложение да се разработи приложение, свързано с такова събитие).
Изправихме се пред редица въпроси от същия тип и решихме да подготвим мини-образователна програма по темата за събиране и обработка на данни - парсинг.
1. Какво е парсинг?
2. Как се събират данните? Настройки на анализатора.
В тази връзка за всеки ресурс се създава собствено правило за събиране на данни, преди това програмистите анализират страницата с данни и разработват решение - къде се показва необходимата информация, дали е скрита, в каква форма е представена. Целият този процес по същество означава настройка на анализатора.
Без контролен панел е трудно да се анализира работата на събирачите на данни и е невъзможно да се реагира бързо при проблеми.

Собствениците на много популярни сайтове и сайтове не харесват, когато събират информация от тях, за това те усложняват структурата на страницата (обърквайки html кода), покриват информацията с невидими слоеве или правят страницата генерирана само в браузъра на посетителя (просто няма такава страница физически на сървъра). Напоследък много ресурси просто изключват връзката, ако разберат, при поискване, че се анализират, особено нахалните са забранени. Освен това някои от тях редуват и периодично променят методите на блокиране.
Събирането на "сурова" информация е половината от битката. Информацията трябва да се събира в базата данни в единични мерни единици, в правилния правопис, вземете предвидвъзможни правописни и кодиращи грешки. Трябва да се подреди, да се отдели житото от плявата, така да се каже. За да направят това, програмистите създават допълнителни манипулатори на данни. Те проверяват масива от събрани данни, премахват излишните интервали и коригират основните правописни грешки. Манипулаторите ви позволяват да избегнете грешки при по-нататъшен анализ и използване на данни.
Когато съставяте технически спецификации за създаване на анализатор, трябва да имате отговори на следните въпроси:
Анализирахме накратко какво представлява събирането на данни, как се извършва и какви проблеми могат да възникнат.
Натрупали сме богат опит в областта на събирането и анализа на данни, нашите програмисти комбинират много методи за заобикаляне на заключвания (виртуални машини, базирани на Silenium, емулация на поведенчески фактори, заявки от различни сървъри и др.).
Ако имате интересен проект или поне идея - отворени сме!