KNOW INTUIT, Лекция, Задачи на Data Mining

Прогнозиране и времеви редове

Основата за прогнозиране е историческа информация, съхранявана в базата данни под формата на времеви редове.

Съществува концепция за извличане на данни от времеви редове (Time-Series Data Mining).

Подробно обсъждане на тази концепция може да се намери в [23].

Въз основа на ретроспективна информация под формата на времеви редове е възможно да се решат различни проблеми с извличането на данни. На фиг. 6.1 представя резултатите от проучване относно времеви редове за извличане на данни. Както можете да видите, прогнозирането заема най-голям процент (23%) сред решаваните задачи. Следват класификация и групиране (по 14%), сегментиране и откриване на аномалии (по 9%) и откриване на правила (8%). Други задачи представляват по-малко от 6%.

Въпреки това, за да се съсредоточим върху концепцията за прогнозиране, ще разгледаме времевите редове само в рамките на решаването на проблема с прогнозирането.

Ето две основни разлики между времеви редове и проста последователност от наблюдения:

Членовете на времеви редове, за разлика от членовете на случайна извадка, не са статистически независими.
Членовете на времевия ред не са разпределени по равно.

Времевата серия е поредица от наблюдавани стойности на характеристика, подредени в неслучайни моменти.

Разликата между анализа на времеви редове и анализа на случайни извадки е допускането на еднакви времеви интервали между наблюденията и техния хронологичен ред. Отнасянето на наблюденията към времето тук играе ключова роля, докато при анализа на случайна извадка това няма значение.

Типичен пример за времеви редове са данните за търговия с акции.

Информация, натрупана вразнообразие от корпоративни бази данни, е времеви ред, ако е подреден в хронологичен ред и се произвежда в последователни моменти във времето.

Анализът на времевите редове се извършва, за да:

определяне характера на поредицата;
прогнозиране на бъдещи стойности на серията.

В процеса на определяне на структурата и закономерностите на динамичните редове се предполага, че се откриват: шум и отклонения, тенденция, сезонен компонент, цикличен компонент. Определянето на характера на динамичните редове може да се използва като вид "разузнаване" на данните. Знанието на анализатора за наличието на сезонен компонент е необходимо, например, за да се определи броят на примерните записи, които трябва да участват в изграждането на прогноза.

Шумът и отклоненията ще бъдат обсъдени подробно в следващите лекции от курса. Те усложняват анализа на времеви редове. Има различни методи за идентифициране и филтриране на извънредни стойности, което прави възможно изключването им с цел по-добро извличане на данни.