KNOW INTUIT, Лекция, Задачи на Data Mining
Прогнозиране и времеви редове
Основата за прогнозиране е историческа информация, съхранявана в базата данни под формата на времеви редове.
Съществува концепция за извличане на данни от времеви редове (Time-Series Data Mining).
Подробно обсъждане на тази концепция може да се намери в [23].
Въз основа на ретроспективна информация под формата на времеви редове е възможно да се решат различни проблеми с извличането на данни. На фиг. 6.1 представя резултатите от проучване относно времеви редове за извличане на данни. Както можете да видите, прогнозирането заема най-голям процент (23%) сред решаваните задачи. Следват класификация и групиране (по 14%), сегментиране и откриване на аномалии (по 9%) и откриване на правила (8%). Други задачи представляват по-малко от 6%.
Въпреки това, за да се съсредоточим върху концепцията за прогнозиране, ще разгледаме времевите редове само в рамките на решаването на проблема с прогнозирането.
Ето две основни разлики между времеви редове и проста последователност от наблюдения:
- Членовете на времеви редове, за разлика от членовете на случайна извадка, не са статистически независими.
- Членовете на времевия ред не са разпределени по равно.
Времевата серия е поредица от наблюдавани стойности на характеристика, подредени в неслучайни моменти.
Разликата между анализа на времеви редове и анализа на случайни извадки е допускането на еднакви времеви интервали между наблюденията и техния хронологичен ред. Отнасянето на наблюденията към времето тук играе ключова роля, докато при анализа на случайна извадка това няма значение.
Типичен пример за времеви редове са данните за търговия с акции.
Информация, натрупана вразнообразие от корпоративни бази данни, е времеви ред, ако е подреден в хронологичен ред и се произвежда в последователни моменти във времето.
Анализът на времевите редове се извършва, за да:
- определяне характера на поредицата;
- прогнозиране на бъдещи стойности на серията.
В процеса на определяне на структурата и закономерностите на динамичните редове се предполага, че се откриват: шум и отклонения, тенденция, сезонен компонент, цикличен компонент. Определянето на характера на динамичните редове може да се използва като вид "разузнаване" на данните. Знанието на анализатора за наличието на сезонен компонент е необходимо, например, за да се определи броят на примерните записи, които трябва да участват в изграждането на прогноза.
Шумът и отклоненията ще бъдат обсъдени подробно в следващите лекции от курса. Те усложняват анализа на времеви редове. Има различни методи за идентифициране и филтриране на извънредни стойности, което прави възможно изключването им с цел по-добро извличане на данни.