Проблеми на клъстерите с висока производителност

висока
Фиг. 14.5 Високоскоростен клъстер

В почти всяка паралелно ориентирана задача е невъзможно да се избегне необходимостта от прехвърляне на данни от една подзадача към друга. По този начин производителността на клъстерна система с висока производителност се определя от производителността на възлите и връзките между тях. Освен това влиянието на скоростните параметри на тези връзки върху цялостната производителност на системата зависи от естеството на изпълняваната задача. Ако една задача изисква чест обмен на данни с подзадачи, тогава трябва да се обърне максимално внимание на скоростта на комуникационния интерфейс. Естествено, колкото по-малко части от една паралелна задача взаимодействат една с друга, толкова по-малко време ще отнеме за нейното изпълнение. Което диктува определени изисквания и за програмиране на паралелни задачи.

Основните проблеми, когато е необходимо да се обменят данни между подзадачи, възникват поради факта, че скоростта на трансфер на данни между централния процесор и RAM на възела значително надвишава характеристиките на скоростта на системите за взаимодействие компютър-компютър. В допълнение, разликата в скоростта на кеш паметта на процесора и комуникациите между възлите значително влияе върху промяната във функционирането на системата в сравнение с познатите ни SMP системи.

Скоростта на интерфейсите се характеризира с два параметъра: пропускателната способност на непрекъснат поток от данни и максималния брой най-малки пакети, които могат да бъдат предадени за единица време. Ще разгледаме опциите за внедряване на комуникационни интерфейси в раздела „Инструменти за внедряване на клъстери с висока производителност“.

Проблеми на клъстерните системи с висока наличност

Днес в света са широко разпространени няколко типа системи с висока достъпност. Сред тях клъстерната система е въплъщение натехнологии, които осигуряват най-високо ниво на отказоустойчивост на най-ниска цена. Сривът на клъстера се осигурява чрез дублиране на всички жизненоважни компоненти. Най-устойчивата на грешки система не трябва да има нито една точка, тоест активен елемент, чиято повреда може да доведе до загуба на функционалност на системата. Тази характеристика обикновено се нарича - NSPF (No Single Point of Failure, - английски, липсата на единична точка на повреда).

клъстерите
Фиг. 14.6 Клъстерна система без точки на отказ

При изграждането на системи с висока наличност основната цел е да се осигури минимално време на престой. За да може системата да има високи показатели за готовност, е необходимо:

че неговите компоненти са възможно най-надеждни;

така че да е устойчив на грешки, желателно е да няма точки на повреда;

и също така е важно да бъде лесен за поддръжка и да позволява подмяна на компоненти без спиране.

Пренебрегването на някой от посочените параметри може да доведе до загуба на функционалност на системата. Нека прегледаме накратко и трите точки. Що се отнася до осигуряването на максимална надеждност, тя се осъществява чрез използване на електронни компоненти с висока и свръхвисока интеграция, поддържащи нормални режими на работа, включително термични.

Толерантността към грешки се осигурява чрез използване на специализирани компоненти (ECC, Chip Kill модули памет, отказоустойчиви захранвания и др.), както и чрез използване на клъстерни технологии. Благодарение на клъстерирането се постига такава схема на функциониране, когато в случай на повреда на един от компютрите задачите се преразпределят между други възли на клъстера, които функционират правилно. Освен това, една от най-важните задачи на производителите на клъстерисофтуерът е да осигури минимално време за възстановяване на системата в случай на повреда, тъй като устойчивостта на грешки на системата е необходима именно за минимизиране на така наречения непланиран престой.

Много хора забравят, че лесната поддръжка, която служи за намаляване на планирания престой (например подмяна на повредено оборудване), е един от най-важните параметри на системите с висока наличност. И ако системата не позволява подмяна на компоненти без изключване на целия комплекс, тогава нейният коефициент на готовност намалява.