数据中心是一个拥有诸多系统的复杂机构,要让数据中心高效安全地运转起来,需要有一支技术实力丰沛雄厚的运维队伍。虽然,这几年总有人提出要建设无人值守的数据中心,建设自动化运维的系统,以降低人力成本,尽力去提升个人运维的工作效率,在实际应用中,仍不能完全行得通。没有人参与运维和管理的数据中心将是一盘散沙,根本形不成战斗力。降低人力成本是数据中心长时间坚持的目标,但眼前还要大量的技术人员,在数据中心里形成人机交互的融合体。而且,在数据中心建设TIA-942标准中也明白准确地提出人员的配置情况,不同级别的数据中心要求匹配的人员数量不一,等级越高对人员数量和技能水平要求越高。
如图1所示,TIA-942将数据中心分为四级,其中T1级别最低,T4级别最高,级别越高匹配的人员能力有一定的要求越高,同时值守时间也最长,T4往往要求全年数据中心无业务中断,对运维的要求非常高,必须安排专业方面技术的人员现场24小时值守,以便在出现一些明显的异常问题时,及时排除,或者能立即切换到备份系统上,让业务不受影响。
在人员的组织架构设计上,可以将数据中心分为三大块,每个部分再细分,建设完善的运维系统,一般是这样,如图2所示:
根据图2所列的数据中心运维的组织架构,显然对于一个大型数据中心13~15人是最基本的配置,如果考虑到7*24小时轮换值班(个别岗位),人员配置至少要25人。像保安和保洁人员,偌大的数据中心只配置一两个人肯定不够,大型数据中心的面积都要上万平方米,这个大建筑面积的保洁工作,至少也要十来个人才行。还有IT系统部分,网络与服务器、存储这些都是相关性比较少的专业方面技术,一个人不可能都掌握,就需要这样一些方面的人才都要储备一些。还有很多的数据中心是建在全国各地的,如果在全国各地的数据中心都建设图2这一套运维组织,人力成本过高,所以很多的数据中心也是将IT系统部的所有专业方面技术人员集中到总部办公,对各地的数据中心实施远程管理。在数据中心机房现场,只需要留有少量的驻场人员,这些人员只需要会拔插网线,会重启和安装设备就可以,平日的监控也主要由这些驻场人员来完成,一经发现问题及时通知IT系统部的人员上来定位和分析。
基础设施部和行政部与数据中心机房休戚相关,在各地的数据中心都要建立一套。其实,现在绝大部分的数据中心都是租用运营商或者专业的数据中心服务商提供的机房,像供电、电气、空调、监控、安保和保洁都是由运营商来完成,数据中心只要向运营商提供租金即可,这样做才能够节省很大一部分人力费用,数据中心运维只需要有IT系统部就可以了。如果像腾讯、阿里这样的互联网巨头,单独建设了自己的数据中心,就需要有基础设施部和行政管理部,当然如果图省事,也可以将这两个部分运维的工作都外包出去,由专业的服务商来完成,这样也要比自己维护两个部门要节省得多。
除了设计组织架构,还要制定详细的部门工作内容,各个工作岗位的职位要求,细化到具体工作上,部门主管能够准确的通过每个人的工作表现,进行考评和涨薪。要建立起一套科学合理的包括选、用、培养、考核及解聘的人员管理生命周期,通过合理的组织架构设计与人员分工,最大限度地发挥个人的主观能动性,为组织目标贡献力量等,这些管理要靠各种流程来约束,大家按照流程办事和工作。流程是数据中心运维架构质量的保证,流程存在的目的是保证运维架构可以按质、按量地运行。
人员是数据中心运维的基础,也是数据中心的运维核心。一个好的数据中心运维组织架构,少不了合适的技术和管理人员。人是数据中心运行好坏的最为重要的条件,有句成语说得好:“成也萧何,败也萧何”,要知道数据中心中发生的故障百分之八十是人为故障,而人又是处理这些故障的关键部分,需要大量的人力去保证数据中心稳定运行。所以,人与数据中心的关系很微妙,既不能让数据中心完全依赖于人,又不能让数据中心完全脱离人的管理,要在两者之间达到平衡。人干预过多,会造成人为故障,人干预过少,数据中心系统就容易跑偏,也许有设备都烧掉了,人们都还不知道,这样的数据中心运维就是失败的。
数据中心运维是一份工作所承受的压力极大的工作,需要经常熬夜、加班,还要经常做一些重复性的工作,不少人干上三五年若没有提升的话,都很难坚持到底。所以我们得知数据中心运维人的群体基本都是一群年轻的,充满干劲的小伙子,个别一些资深的运维工程师可能三十几岁,超过四十岁的若还不是主管或者总监,还做基础运维的工作人员是凤毛麟角。
随着新技术新业务的持续不断的发展,现代数据中心发生了很多变化:资源规模及维护压力迅速增加,客户的真实需求慢慢的变多种多样,数据中心迅速走向集中化、规模化,大型数据中心成为主流,越来越多的云业务代替传统租赁托管业务这些变化都要求数据中心踏上整合、云化之路,同时也给安全管控、资源管理、配套供给、绿色节能等方面提出新的挑战。因此,构造安全可控的...