Мониторинг на APC UPS с Microsoft System Center Operations Manager 2007 Metrex Team Blog
- Публикувано от Александър
- Дата: 5 май 2009 г. в 12:04 ч
В тази публикация ще опиша нашия пакет за наблюдение (пакет за управление) за System Center Operations Manager 2007 (наричан по-долу SCOM), с който можете да наблюдавате непрекъсваемите захранвания на APC.
Защо ви хрумна идеята да създадете такъв пакет? Когато трябва да обслужвате няколко сървърни помещения, които са географски разделени, въпросът с мониторинга на захранването става особено остър. Няма начин да изберете който и да е UPS, да го наблюдавате с безплатната помощна програма APC, която идва с UPS, и да приемете, че всички други UPS в сървърната стая се държат почти по същия начин.
Така че, нека да разгледаме съществуващите решения, които ви позволяват да наблюдавате UPS. Тъй като SCOM е внедрен в нашата организация, не се интересувахме от различни пакети за други системи за наблюдение. В допълнение, не всички наши UPS устройства имат инсталирана карта за наблюдение на околната среда, някои просто са свързани към сървъри чрез USB или COM портове. Разбира се, исках да имам универсален инструмент за наблюдение, който не зависи от вида на UPS връзката. В резултат на това списъкът с опции, които разгледахме, е следният:
- Можете да конфигурирате всеки UPS да изпраща имейл съобщения до избрани потребители. Най-простият вариант, но има много недостатъци:
1) всеки UPS трябва да има достъп до пощенски сървър;
2) UPS има тенденция да генерира съобщение след съобщение, ако проблемът не е разрешен. Например, ако температурата на сензора надхвърли допустимата граница за половин час, дузина съобщения ще попаднат в пощенската кутия. Но в същото време UPS не знае как да уведоми оператора за разрешен проблем, няма такава функционалност в софтуера. Това е фундаментален момент. Например, през нощта може да има многосъбития и сутрин, за оператора ще бъде важно преди всичко да обърне внимание на тези, които все още са актуални;
3) необходимо е да конфигурирате известия (типове събития, получатели, пощенски сървър) на всеки UPS поотделно. Самите известия не могат да бъдат конфигурирани, това също е минус. Например, ако зададената температура е надвишена, UPS просто ще изпрати съобщение, че температурата е надвишила зададената маркировка. Операторът няма да знае от съобщението колко е превишена температурата;
4) невъзможно е гъвкаво конфигуриране на получателите на съобщения. Например, информацията за резултатите от последното калибриране е от значение само за операторите, докато известието за прекъсване на захранването ще бъде важно за други хора, включително системни администратори и т.н.;
5) Тази система е подходяща само за UPS, директно свързани към електрическата мрежа;
- Съвсем логично е да се обърнем към решението на APC. Това е Powerchute Business Edition. Базовата версия е доста интересна в този случай, тя ви позволява да наблюдавате (и контролирате) 5 UPS-а едновременно, но всички проблеми, описани по-горе (генериране на куп предупреждения, невъзможност за получаване на съобщение за проблема, който се решава, липса на настройки за уведомяване) остават тук. Единственото предимство пред предишната опция е възможността за наблюдение на UPS, свързан чрез USB или COM портове.
- Пакети за управление на захранването за Operations Manager от Quest Software. Този софтуер работи независимо от SCOM, всъщност на сървъра е инсталирана отделна програма и към SCOM е направен конектор. Поради това всички настройки и конфигурация не се извършват в средата на SCOM, а в интерфейса на помощната програма. В допълнение към очевидните неща (например, операторът ще трябва действително да научи нов продукт в допълнение към вече използвания), това също е неудобно.фактът, че губим способността да управляваме чрез Powershell. Освен това първоначалната инсталация на системата е доста сложна.
- Различни безплатни APC UPS пакети за наблюдение от независими разработчици. Общото между всички тези пакети е, че са проектирани да работят със SNMP прихващания, изпратени от UPS. Това е лошо, защото самият UPS действа като инициатор на известието и не контролира по никакъв начин дали известието е доставено.
По този начин беше решено да създадем собствен пакет за наблюдение на UPS (в момента се поддържат APC UPS, а скоро ще се поддържат и други UPS, които отговарят на стандарта RFC1628). Задачите за създаване на пакета бяха следните:
- APC UPS мониторинг с помощта на SCOM в естествен режим, без използване на конектори към продукти на трети страни.
- Лесна употреба за оператора: стандартен интерфейс, функции, познати на операторите, като например държавни модели (повече за това по-долу).
- Обширни опции за персонализиране - промяна на праговете за предупреждение, честота на запитване на параметри и др. В разпределената структура на всяка организация това е важно, т.к параметрите на мощността в различните сървърни помещения може да се различават и можете гъвкаво да настроите пакета към нормалното поведение на конкретен UPS в конкретно сървърно помещение.
- Поддръжка на UPS мониторинг с различни видове връзка - Ethernet, COM, USB.
За да покажа по-добре основните характеристики на пакета, ще ги илюстрирам с екранни снимки.
Общ списък на устройствата
Този списък улеснява виждането на състоянието на всички наблюдавани UPS наведнъж. Благодарение на метода на представяне - таблица - голям брой устройства се показват на един екран. Например, при резолюция 1024x768 можете да гледате едновременно около 30-40 UPS:
Диаграмите са удобни, защото позволяватидентифицирайте проблема, като преминете през дървото на устройствата. Например, тук виждаме списък на всички устройства, свързани в момента към системата за наблюдение:
Ако искаме да получим малко повече информация за UPS, просто отворете свойствата му:
Лесно можем да разберем модела на UPS, неговото местоположение (разбира се, това трябва да бъде посочено в свойствата на конкретен UPS) и IP, както и друга информация, която може да бъде полезна за идентифициране на UPS.
Връщайки се към схемата на устройството, става ясно, че някои UPS имат проблеми. За да разберем по-точно, разкриваме устройството, което ни интересува:
Това е Smart-UPS 5000 с инсталирана карта за наблюдение на околната среда. Вижда се, че всичко е наред със системата за мониторинг на околната среда, но има някои предупреждения за батерията.
Диаграмите могат да се считат за основния работен интерфейс на оператора. Те ви позволяват бързо да отваряте всякакви други изгледи на SCOM чрез контекстни менюта (например графики на ефективността или списък с предупреждения), докато операторът ще получи само данните, които съответстват на избрания елемент. Например, ако изберете типа „графики на производителността“ за UPS, тогава ще се отворят всички налични графики за този UPS. Ако направите подобно действие върху батерията на този UPS, тогава броят на графиките ще намалее значително, ще останат само тези, които съответстват на батерията на този UPS.
Държавен модел
След като разбрахме от схемата, че проблемът е в батерията на UPS, искаме да разберем какъв точно е той. За тази цел най-подходящ за нас е Health Explorer или State Model. Ето какво ще видим за тази батерия:
Веднага можете да видите какъв е проблемът - очакваното време, през което UPS ще може да поддържа текущия товар, е паднало подалармен праг. Можете да видите стойността, при която е задействано известието, и времето, в което се е случило. Списъкът показва всички събития от този инцидент в миналото, което може да помогне за идентифициране на проблема и колко често се случва.
Графиките могат да се разглеждат като друго средство за анализ на проблема. Естествено, графиките могат да бъдат само за тези параметри, които могат да бъдат измерени по някакъв начин. Ето, например, графика на промяната на входното напрежение на UPS, събрана за няколко часа:
Ето две температурни диаграми, взети от един и същ UPS. Стойностите за червената графика се вземат от вградения температурен сензор в UPS, а стойностите за оранжевата графика се събират от външен температурен сензор, прикрепен към сървърна стойка близо до UPS. Както можете да видите, графиките се повтарят и промяната е причинена от температурната разлика вътре в UPS и навън:
И ето по-интересна графика на връзката между очакваното време на работа на UPS (лилава графика) и текущото натоварване (жълто-зелена графика):
За събития, които са важни само в случай на многократно повторение (например опит за отгатване на парола), е по-удобно да използвате Изглед на събития:
Логично е операторът да бъде уведомен само когато броят на повторенията на събитието надвишава критичната стойност за определен интервал от време
Сигнали
Невъзможно е да поддържате конзолата на оператора на SCOM винаги отворена и да наблюдавате всички промени в реално време, затова е важно да имате удобна система за известяване по имейл за настъпили събития. Например този:
Графики и сигнали/известия
В момента пакетът поддържа следните графики (разбира се, всичко зависи и от самото устройство):
- Входно напрежение, V
- Входяща честота, Hz
- Изходно напрежение, V
- ИзходЧестота, Hz
- изходен ток, A
- Изходно натоварване, %
- Капацитет на батерията, %
- Ток на батерията, A
- Напрежение на батерията, V
- Оставащо време на батерията, m
- Температура на батерията, C
- Температура на сондата, C
- Probe Hum > Поддържат се следните известия и сигнали:
Категория | Обект | Условие на задействане |
Наличност | Основен статус на UPS | Ако UPS е променил състоянието си (напр. на байпас при повреда на хардуера и т.н., всичките 12 състояния са общо различни) |
UPS DC вентилатор | В случай на повреда на вентилатора | |
UPS превключи на резервно захранване от батерии | Ако UPS е превключен на вградена батерия | |
Проверка на UPS Link | Ако няма n отговора от UPS за m период от време | |
Индикатор за смяна на батерията | В случай, че UPS изисква смяна на батерията | |
Резултати от калибриране на теста | В случай, че резултатите от последното калибриране са неизвестни или то е неуспешно | |
Тествайте диагностичните резултати | В случай, че резултатите от последната диагностика са неизвестни или е преминала с грешка | |
производителност | входно линейно напрежение | Ако входното напрежение е над или под зададените прагове |
Честота на входната линия | Ако честотата на входното напрежение е над или под зададените прагове | |
изходно натоварване | В случай на превишаване на допустимия праг на натоварване на UPS | |
изходно напрежение | Ако изходното напрежение е над или под зададените прагове | |
Капацитет на батерията | Ако капацитетът на батерията е под зададения праг | |
Оставащо време за работа на батерията | В случай, че очакваният живот на батерията е под зададения праг | |
температура на батерията | Ако зададеният праг е надвишен от вградения температурен сензор | |
изходен контакт | В случай на затваряне на контакт | |
входни релета | В случай на изключване на реле | |
температура на пробата | Ако зададеният праг е надвишен от сензора за външна температура | |
Сигурност | Парола за UPS | В случай на промяна на паролата на UPS |
UPS HTTP достъп | В случай на въвеждане на n брой неправилни пароли за m интервал от време при достъп до UPS през HTTP | |
Достъп до конзолата на UPS | Ако n на брой неправилни пароли са въведени в m интервал от време при достъп до UPS през конзолата |
В момента пакетът за управление се разработва активно, по-специално в близко бъдеще се планира да се разшири броят на поддържаните устройства с UPS на трети страни (не-APC), които отговарят на RFC1628. Но сега можем да отбележим някои акценти на пакета:
- Инсталирането на пакета е почти същото като инсталирането на повечето други SCOM пакети, с малко или никакви предварителни изисквания. Не е необходимо да инсталирате софтуер на трети страни. След инсталацията пакетът сам намира APC UPS сред наличните в SCOM мрежови устройства, сам определя дали платката за мониторинг на околната среда е инсталирана в UPS и т.н.
- Поддържа наблюдение както на UPS, свързани директно към мрежата, така и на тези, работещи през USB и COM портове.
- Всички сигнали са направени възможно най-персонализирани, можете гъвкаво да коригирате пакетаза конкретен UPS.