新闻动态
公司动态行业动态

2020机房搬迁纪实

日期:2021-03-22来源:

要说,2019年用1个月搬完了2个机房,看上去有运气的成分,那么,2020年搬迁工作,充分证明了我们真正的实力!我们还是从前的少年,对机房搬迁的信心丝毫未减。


机房搬迁总结


本次搬迁工作给“大家”带来了什么?


11月21日17时至次日早7时,集团信息科技中心及寿险IT 100多人经过了14小时通宵奋战,圆满完成了国富瑞机房寿险核心生产系统的搬迁工作,至此完成了2020年机房搬迁中最重要、最艰巨的任务,初步建成两地三中心的架构。


自2019年7月以来,根据集团数据中心两地三中心总体规划,在无任何新购设备的前提下,信科中心在集团各部门(中心)、各子公司的大力支持下,陆续对联通、兆维、石景山、国富瑞、大厦等6个机房进行了53个批次迁移,搬迁物理设备1200多台,缩减外租机柜93个,节省机柜租金约660万元/年,专线费用减少200万元/年。另外,在机房搬迁过程中,搬迁团队不放弃任何一次解决历史问题和优化系统的机会,如数据库SID修改、内存参数调整、时钟调整、防火墙策略修改、专线负载调整、磁盘挂载问题处理、养老险及单证灾备实施准备等。


信科中心坚决落实公司“三年打基础”战略,改变了原来无计划、无规划、散乱的机房布局,初步建成了科学合理、稳定高效的两地三中心架构。1年多的机房搬迁及整合工作不仅盘清了家底,提升了效能,节约了成本,更重要是锻炼了团队、塑造了一支主动担责、乐于付出、技术过硬的基础设施运维团队,必将能为公司的各项业务战略实施提供更加坚实的基础服务和技术保障。


01

疫情之下,上班是幸福的


疫情态势下,机房搬迁工作是否如期开展?


仿佛一夜之间,疫情把整个世界的秩序搅乱了,2020年4月初,公司还没恢复正常办公,机房搬迁工作依旧如约启动了。哎!又是一个痛苦的轮回啊,但是在疫情期间,能和同事们一起工作,感觉也不错!


没有恢复正常办公,你们是如何与供应商沟通的?


居家办公期间,为了保证项目的技术评审、立项、交流等工作不受疫情的影响。我们是通过远程会议与供应商交流的。对于去年的搬迁情况他们也有所耳闻。在了解了我们的目标、范围和思路后,不出所料!供应商建议采用逻辑搬迁方式,替代物理搬迁。但他们也表示,可以按照我们的需求和计划去实施。这与去年供应商给予的建议形成了鲜明的对比。我们将实干与巧干并用,不仅增益于本次搬迁工作,也影响了外界的一些认知,提供了新的工作形态。


你觉得今年搬迁最大的阻碍是什么?


今年搬迁的最大障碍不是信心,而是疫情!感染病例此起彼伏的,让人揪心,今天北京出现了确诊病例、明天燕郊出现了疑似病例,反反复复,真是胆战心惊,也在一定程度上影响了搬迁的工作进程。调研访谈、方案讨论有时无法当面沟通,只能通过微信、电话、视频会议等途径。有一次,我看到企业微信推送的一周小结对话数超千次,“本周处理了1267次工作对话,总共花了698分钟,最晚的时间在凌晨3:54”。虽然我们对疫情的干扰很是无奈,但我们知道机房搬迁是不能等的,今年我们不只要克服搬迁中的困难,还要克服疫情的障碍。


02

搬迁战术之以变应变


今年的搬迁形势怎样、采用什么打法?


确实,这个问题是开战之前我们首先要想清楚的。相比去年,今年面临的搬迁任务更重,要搬迁集团大厦的两个机房、国富瑞机房和鹏博士的部分系统,最终形成两地三中心架构,是信息科技三年打基础的决战之年。


首先,集团大厦两个机房的系统中存在很多陈年旧账,如开发、测试、办公、生产系统五花八门;十年以上的设备占据一大半;记录中系统负责人都是传说中的人物等。如果不排查清楚、妥善处理,搬迁工作是无法开展的。其次,国富瑞机房是寿险核心、集团单证、数据仓库的重镇,涉及到我司全部业务,不做好充分的调研和准备,是绝对不敢动的。还有,今年的疫情发展会怎样,什么时候能搬、什么时候能搬完,谁也说不清楚,只能边干边看,时间上无法预期。


如《孙子兵法》所言:“兵无常势,水无常形,能因敌变化而取胜者谓之神。”因此,基于对今年搬迁情况的分析,相比去年的速战速决,今年的搬迁可能是个持久战,而且要以变应变。我们不能等一切准备好才上路,而是准备好面对路上的一切。


03

大厦机房搬迁,烧脑之极限挑战


在搬迁过程中,你们都遇到了什么具体问题,是如何应对的?


第一个问题,就是资产的盘点问题。因办公职场调整,首先需要完成集团大厦机房的搬迁。虽然对大厦机房的杂乱、老旧系统搬迁的困难有所预期,但真正梳理起来还是超出想象。六月起,开始进行了为期半个多月的梳理,342台物理机中还有84台无人认领,556台虚拟机中还有184台没有人确认,没做到知己知彼,谁都不敢轻举妄动。这种局面很被动,必须要找到一个突破口解决。这时信科中心今年上线的Devops CMDB出手了,从业务应用视角入手,由业务系统关联应用,应用关联物理机、虚拟机,有用的设备就被标记了,没有标记的意味着可以下线处理了。在统一且严格的要求下,所有系统必须在Devops中录入,没有录入的系统将不再维护。有了CMDB加持,系统梳理快刀斩乱麻,加速度完成了。


第二个问题,面对大厦机房系统繁杂,需要采取不同的搬迁策略,涉及多个判断条件:保留大厦还是搬迁燕郊、是否修改IP地址、物理机迁移单机虚拟化的、物理机迁移集群虚拟化的、虚拟化单机迁移集群的、虚拟化集群迁移单机的……这样组合下来有十多种情况。要跟所有系统负责人沟通各种情况、建议搬迁的方式,这个选择和梳理极度烧脑,思维导图也挽救不了我们的发际线。


最后一个问题,面对物理机老旧的问题,直接搬迁损坏风险极高,我们采用从物理机迁移到虚拟机(P2V)的方式解决,这一招鲜贯穿了整个搬迁过程,成为我们解决物理机搬迁风险的法宝之一。在梳理清楚、准备就绪后,7月24日大厦机房搬迁如期实施完成了。期间遇到了某品牌服务器6台搬迁后出现4台低级故障无法启动的意外;还有1台设备在无人认领下线1个多月后,还有人要找回的尴尬。


04

ODS搬迁之幕后英雄


听说你们这次搬迁,还有幕后英雄,可以具体说下吗?


集团大厦两个机房搬迁完成后,战场转到国富瑞机房。首先是ODS系统的搬迁,ODS是全集团的数据核心系统,是所有业务系统与大数据平台的中间枢纽和大动脉,涉及监管报送、数据分析和经营决策等。ODS系统从国富瑞机房搬迁至燕郊机房,影响范围极大。如此重要系统的梳理却比大厦机房系统清晰得多,得益于数据管理部安排专人对接支持,搬迁的范围、影响及方案很快就确定下来了。实施前的准备,如应急环境搭建、数据复制、网络环境部署、验证测试等工作也一一就绪。经过8月28日晚上12小时的奋战,ODS系统搬迁至燕郊,至凌晨7点系统交由数据管理部测试。因涉及系统众多,数据管理部的伙伴们需要逐一测试,工作一直持续到下午3点多才完成。


但是ODS系统搬迁的工作并没有结束。因战略调整,国富瑞机房的寿险核心、集团单证等核心交易类系统要搬迁至鹏博士机房,国富瑞机房的其他系统要搬迁至燕郊机房。因搬迁至鹏博士的系统和搬迁至燕郊的系统不能使用同一网段的IP地址,其中一部分系统的IP地址必须更换,IP地址修改将使搬迁工作量和难度大大增加。搬迁过程中IP地址的修改是最敏感的、是大家都不愿接受的,因为不只是工作量翻倍,而且涉及网络权限、关联系统和应用修改,使本来就艰难的搬迁难度至少增加2倍,实施时间窗口也将延长,风险大幅增加。


为了避免国富瑞核心交易类系统进行IP地址修改的影响,数据管理部领导毅然决定将刚搬迁至燕郊机房的ODS系统修改IP。9月19日,我们和机房搬迁的幕后英雄——数据管理部的兄弟们,从物理机IP地址修改、应用IP地址修改、关联系统IP地址修改,到业务系统测试验证通过,隐秘而伟大的战士们又一次拿下了一场24小时的战斗。


05

战略布局之虚拟机的长征

你们是否借鉴了上次的搬迁经验,比如某项工作前置?


国富瑞机房核心交易类系统要搬迁至鹏博士机房,为了满足核心交易系统的空间资源需要,为了不增加外租机柜数量,鹏博士机房部分系统的搬迁到燕郊的工作开始了。搬迁团队逢山开路、遇水搭桥,要将鹏博士部分非交易类系统搬迁至燕郊,这是寿险核心和单证系统的搬迁的前置工作之一。核心系统搬迁前置工作共有18个大项、30多个小项,自9月20日至11月21日,项目组每天早晚跟踪,及时汇报进度和问题。


前置工作中还有至关重要的一项——虚拟机的迁移。今年的虚拟机迁移是一次长征,共涉及2400台虚拟机,系统腾挪大调整但不能影响业务使用,系统要从一个平台平滑迁移到另一个平台,工作量大、周期长。在烧脑的大厦机房1000多台虚拟机清理迁移之后,至9月27日鹏博士机房的300多台虚拟机修改IP后全部迁移至燕郊,至10月15日近800台国富瑞机房虚拟机修改IP后全部迁移至燕郊,之后10月20日至11月21日,国富瑞机房核心系统虚拟机陆续迁移至鹏博士机房200多台。


大多数系统只能在晚上进行迁移切换,如果修改IP地址又需要应用配置、排故和验证等一系列工作,平均每天晚上要迁移切换30台系统。负责虚拟机迁移的兄弟说经常梦到一台台虚拟机排着的队伍,从大厦到燕郊,从国富瑞到燕郊,从国富瑞到鹏博士,从鹏博士到燕郊……当虚拟机在穿山越岭的另一边,我们在搬迁的路上盼望着终点……


06

大战前的密集调度


正式实施搬迁工作前,你们都做了哪些准备工作?


国富瑞机房核心系统的搬迁自9月初开始筹划以来,与业务部门反复讨论搬迁时间和窗口,最多只有15个小时停机窗口,其中3个小时还是搬迁后的业务验证时间,实际留给搬迁实施的时间只有12小时。与去年财险核心搬迁的12小时来说,今年最后这个批次系统数量却多了3倍。为了缩短搬迁所需时间,搬迁团队只有想法设法减少11月21日当天搬迁的系统和设备数量,一台设备一台设备地精打细算,一个系统一个系统地争取。


这样在11月21日前的两周,银行前置机、CBS、集中结费、财险销管、反洗钱和打印系统、档案系统、工作流系统、寿险银保王牌等系统搬迁密集开展。为了保障物理搬迁的安全,利用仅有的一套中转设备陆续迁移,你用完了我用,轮流着来。搬迁公告、邮件也是一个接一个,轮番轰炸。在双11全民狂欢的买它买它买它的时候,我们在各个机房间穿梭着搬它搬它搬它……


同时,核心系统搬迁的应急环境和搬迁实施方案也开始准备起来。应急环境是在搬迁出现严重问题时的最基本保障,虽然谁心里都不想使用,但又不得不静下心来做好应对万一的准备。所以应急环境要早一些准备,经过充分的测试验证,准备好了、没有后顾之忧后,大家才能全心地投入到真正的实施准备工作中。


在信科中心10月搬迁至燕郊职场后,为了方便加班、为了全心投入、也为了与寿险等业务部门沟通方便,11月初搬迁项目组又集中到大厦办公。因工位有限,大家三四个人共用两个工位,会议室紧张,在休息区搭出电视小会议环境。每天早中晚反复讨论方案,搬迁方案每天都要更新两、三版,操作步骤越来越详细,发现的问题也越来越多,准备工作也越来越多。


07

决战之夜,奔跑吧兄弟


决战之夜,是否一切顺利?


正当寒风起,落叶一地黄,核心搬迁前一周搬迁团队开始现场勘查。卡尺测量位置尺寸、提前安装机柜导轨、机柜门拆卸、路上坑坑洼洼控制速度、门槛铺钢板垫木、手电照明、防冻棉被、床垫减震、应对温差大结露的吹风机,只要能保障搬迁安全的、能缩短搬迁时间的所有措施都用上了。物理搬迁的必备之物各种备件也准备起来,甚至一台上百万的小型机整机也运到现场待命保障。


搬迁工序安排了1个主任务和5个子任务,6个任务并行穿插进行:在主系统搬迁的同时,导轨下架后提前运到新机房安装、NAS存储先于核心系统运到新机房恢复、防火墙先走一波、虚拟机提前切换验证、网关在物理搬迁期间切换,能并行的全部并行起来,能节省的时间全都要节省。我们多希望能像娱乐圈的时间管理大师一样,像八爪鱼一样8个线程并行,因为我们知道每次搬迁都有意想不到的问题,我们要争取到更多的时间用来排除意外,我们要阻止意外比明天先到来。


11月21日随着北京的第一场雪,搬迁决战的日子到来了,这个我们从短袖到长袖到冬装的搬迁,也将随着这个决战交出答卷。有了灾备、应急和数据备份的三重保障,我们义无反顾地、又有些兴奋和期待地投入了战斗,奔跑吧兄弟。18:00应用停止,18:13 OGG停止……19:04数据库停止……至21:22设备运输时,我们已经比预计时间提前了近2个小时,一切进展顺利。


但不出意外,意外还是来了,核心数据库的小机网络不通,机房和大厦现场的气氛紧张了。其实,为了避免类似的问题,我们专门将鹏博士机房的交换机换成了与搬迁系统原来型号和配置一模一样的设备,但还是没有完成排除这个地雷。一个多小时过去了,大家围在设备前面,仍然没有头绪。机房现场领导组织小机专家、网络专家到机房走廊会诊,这时需要静下心来把问题现象搞清楚,经过搬迁前的充分准备,不会有什么致命的问题。正如吉德林法则:把问题清楚的描述出来,问题就已经解决一半了。经过大家冷静地分析,排除一个个可能的原因,问题解决了。工序继续走起来,3:15系统开启,3:26数据库开启……5:42应用启动,5:49技术验证,6:18业务验证,在寿险同事的精心细致准备的脚本下,应用启动和验证都快速完成,这次搬迁终于提前42分钟完成了。


2020年机房搬迁在此刻靴子落地了,大家的脸上除了胜利的喜悦,更多的是平静和疲惫,因为半年来每一次搬迁都是这么走过来的,背后的压力和辛酸无法言表。暴风雨结束后,你不会记得自己是怎样度过的,你甚至不确定暴风雨真的结束了,但有一件事是确定的:当你穿过了暴风雨,你早已不再是原来那个人——我们有了更加坚定的信念去迎接未来的挑战。


点击这里给我发消息