1.3 Модели на данни

Инфологичният модел картографира реалния свят в някои разбираеми за човека концепции, които са напълно независими от параметрите на средата за съхранение на данни. Има много подходи за изграждане на такива модели: графични модели, семантични мрежи, модел на същност-връзка и др. Най-популярният от тях беше моделът на същност-връзка.

Инфологичният модел трябва да бъде картографиран в компютърно ориентиран логически модел на данни, „разбираем“ от СУБД. В процеса на развитие на теорията и практическото използване на базите данни, както и на компютърните технологии, бяха създадени СУБД, които поддържат различни модели на данни.

Отначало започнаха да се използват йерархични информационни модели. Опростеността на организацията, наличието на предварително определени връзки между обектите, сходството с физическите модели на данни направи възможно постигането на приемлива производителност на йерархична СУБД на бавни компютри с много ограничена памет. Но ако данните нямаха дървовидна структура, тогава имаше много трудности при изграждането на йерархичен модел и желанието да се постигне желаната производителност.

Създадени са и мрежови модели за компютри с нисък ресурс. Това са доста сложни структури, състоящи се от "комплекти" - наречени дървета на две нива. „Наборите“ са свързани с помощта на „записи на връзки“, образувайки вериги и т.н. При разработването на мрежови модели бяха изобретени много "малки трикове", които позволяват увеличаване на производителността на СУБД, но значително усложняват последната. Приложният програмист трябва да знае много термини, да научи няколко вътрешни езика на СУБД, да представи подробно логическата структура на базата данни, за да се движи между различни екземпляри, набори, записи и т.н. Един от разработчиците на операционната система UNIX каза „Мрежовата базае най-сигурният начин за загуба на данни."

Сложността на практическото използване на йерархични и мрежови СУБД ни принуди да търсим други начини за представяне на данни. В края на 60-те години се появяват СУБД, базирани на обърнати файлове, които се отличават с простотата на организацията и наличието на много удобни езици за манипулиране на данни. Такива СУБД обаче имат редица ограничения за броя на файловете за съхранение на данни, броя на връзките между тях, дължината на записа и броя на неговите полета.

Физическата организация на данните има голямо влияние върху производителността на базата данни. Разработчиците на СУБД се опитват да създадат най-продуктивните физически модели на данни, като предлагат на потребителите един или друг инструмент за настройка на модела към конкретна база данни. Разнообразие от начини за коригиране на физическите модели на съвременни индустриални СУБД не ни позволява да ги разгледаме в този раздел.

2. Релационен подход

2.1 Релационна структура на данните

Като математик по образование, Е. Код предложи да се използва апаратът на теорията на множествата (обединение, пресичане, разлика, декартов продукт) за обработка на данни. Той показа, че всяко представяне на данни може да бъде сведено до колекция от двумерни таблици от специален вид, известен в математиката катоrelation- отношение (на английски).

Най-малката единица данни на релационен модел е единичнаатомарна(неразложима) стойност на данни за този модел. Така че в една предметна област фамилията, името и бащиното име могат да се разглеждат като една стойност, а в друга - като три различни стойности.

Домейне набор от атомарни стойности от един и същи тип. Значението на домейните е следното. Ако стойностите на два атрибута са взети от един и същи домейн, тогава те вероятно имат смисълсравнения, които използват тези два атрибута (например, за да организирате транзитен полет, можете да дадете заявката „Издаване на полети, при които времето на излитане от Москва до Сочи е по-голямо от времето на пристигане от Архангелск до Москва“). Ако стойностите на двата атрибута са взети от различни домейни, тогава тяхното сравнение вероятно е безсмислено: струва ли си да сравняваме номера на полета с цената на билета? Връзка на домейни D1, D2, . Dn (не непременно всички различни) се състои от заглавка и тяло. На фиг. Фигура 3 показва пример на връзка за разписание на самолет.

Заглавкатасе състои от такъв фиксиран набор от атрибути A1, A2, . А че има съответствие едно към едно между тези атрибути Ai и домейните Di (i=1,2. n), които ги дефинират.

Фигура 2. Връзка от математическа гледна точка (Ai - атрибути, Vi - стойности на атрибути)

Тялотосе състои от променлив във времето набор откортежи, където всеки кортеж се състои на свой ред от набор от двойки атрибут-стойност (Ai:Vi), (i=1,2. n), една такава двойка за всеки атрибут Ai в заглавката. За всяка дадена двойка атрибут-стойност (Ai:Vi), Vi е стойността от единичния домейн Di, който е свързан с атрибут Ai.

Степен на връзкае броят на неговите атрибути. Връзка от степен едно се нарича унарна, степен втора се нарича двоична, степен три се нарича троична, . и степените на n са n-арни.

Кардиналното числоилимощността на релациятае броят на нейните кортежи. Кардиналното число на съотношението се променя с времето, за разлика от неговата степен.

Тъй като една релация е набор, а множествата по дефиниция не съдържат съвпадащи елементи, никакви два кортежа от една релация не могат да бъдат дубликати една на друга във произволен момент от време.Нека R е релация с атрибути A1, A2, . ан. Наборът от атрибути K=(Ai, Aj,. Ak) на релация R се казва, че е възможен ключ на R, ако и само ако са изпълнени две независими от времето условия:

1. Уникалност: в произволен момент няма два различни кортежа R с еднаква стойност за Ai, Aj, . Ак.

2. Минималност: нито един от атрибутите Ai, Aj, . Ak не може да бъде изключено от K, без да се наруши уникалността.

Всяка релация има поне един възможен ключ, тъй като поне комбинацията от всички нейни атрибути удовлетворява условието за уникалност. Един от възможните ключове (избран произволно) се приема като първичен ключ. Останалите възможни ключове, ако има такива, се наричат алтернативни ключове.