Журнал сетевых решений/LAN, № 07, 2013
Кирилл Шадский, начальник отдела эксплуатации DataLine, поделился с Журналом сетевых решений/LAN опытом компании в сфере организации рабочих процессов в ЦОД.
КЦОД: от колокейшн к облакам
"60–70% сбоев в работе ЦОД связаны с человеческим фактором". Специалист DataLine выделяет несколько ключевых вопросов — в частности, ведение документации, обучение, плановое техобслуживание и ремонтные работы, мониторинг и нагрузочное тестирование ЦОД. По его мнению, недостаточно разместить документацию «где-то на сервере» — важно, чтобы возле каждой единицы инженерного оборудования (например, ИБП, кондиционер, ДГУ) находилась краткая выдержка из инструкций, что в случае аварии позволит оперативно выполнить необходимые действия, не тратя время на поиск информации.
Специалист DataLine рекомендует в каждом ЦОД иметь запас топлива минимум на 4–6 часов работы при полной нагрузке (например, по московским пробкам машина с соляркой может добираться до объекта несколько часов), а также запас расходников с большим сроком поставки (на доставку которых из Европы уходит 6–12 недель). Кроме того, желательно иметь в ЦОД «мелочовку»: фреон, предохранители, автоматы и пр. Все это, конечно, есть на складах в Москве, но удобнее, чтобы было «под рукой». Кроме того, российская специфика — например, продолжительные январские и майские праздники — такова, что какую-нибудь простенькую запчасть можно ждать целую неделю, даже если она находится на соседнем складе. Ясно, что обслуживание сложных инженерных систем всегда разумно поручать специализированным организациям, но специалисты DataLine считают необходимым часть работ уметь делать самостоятельно. Это срочные аварийные работы и простые каждодневные операции (запайка фреоновых труб, чистка и замена фильтров).
Скорость и адекватность реакции персонала на то или иное событие зависят от своевременной информированности и полноты данных. Кирилл Шадский рекомендует четко продумать задание приоритетов для сигналов, получаемых от средств мониторинга. Например, по его словам, порой важнее быстро отреагировать на сигнал о проблеме в работе вентилируемой двери шкафа, а не чиллера: последний обычно зарезервирован, тогда как дверь — нет. Если параметры функционирования системы электропитания в ЦОД DataLine запрашиваются ежесекундно — всплески и скачки напряжения могут возникнуть мгновенно, то для систем охлаждения частота опроса составляет раз в минуту. «Температура не может возрасти мгновенно. Если же все параметры отслеживать каждую секунду, то это может привести, во-первых, к перегрузке системы управления, а во-вторых, к появлению массы ненужных предупреждающих сигналов, которые будут только мешать работе операторов», — поясняет он.
Согласно практике, принятой в DataLine, тестирование ДГУ с полной нагрузкой осуществляется не реже двух раз в месяц, причем сама проверка длится не менее часа, поскольку многие проблемы проявляются только после определенного времени работы. Тестирование ИБП с переходом на батареи проводится не реже одного раза в квартал, переключения между элементами системы технологического кондиционирования — раз в две недели, а проверка автоматической установки газового пожаротушения — ежемесячно, каждый месяц для разного направления. В последнем случае тестируется только автоматика без выпуска дорогостоящего газа. Очень важно, что во время тестирования проверяется не только оборудование, но и действия сотрудников, для которых это служит лучшим экзаменом по усвоению теоретических знаний.
Полная версия статьи