应急处理案例-某乳制品股份公司机房紧急抢修

机房遭受大面积积水以及部分服务器和小部分存储设备受到间接性进水的情况发生。我们抢修服务器,以及对存储进行数据恢复。

应急处理案例-某乳制品股份公司紧急抢修
事故情况:
由于建筑管道漏水,导致机房遭受大面积积水以及部分服务器和小部分存储设备受到间接性进水的情况发生。相关业务系统及应用暂停,情况紧急,属重大事故。
事故发生时间为凌晨1:00。
应对情况:
接到通知后,公司启动应急预案。
①     由于未签署驻场服务,派遣专业工程师前往事故现场,协助机房工作人员进行紧急处理工作,并负责统计机房受灾情况。
②     派遣专业工程师和库房工作人员组成应急工作小组,前往备件库房检查并测试相关备机,并保持最佳状态。
③     事故现场工程师统计机房受灾情况完毕后,立刻划分受灾服务器故障等级,并制定简略应急维修方案。
④     备件库房应急工作小组,根据现场工程师制定的应急维修方案携带备件服务器以及相关维修设备前往事故现场。
⑤     指挥并协助机房工作人员对事故现场进行适宜处理,使机房尽快恢复正常工作状态。
⑥     对故障等级低的受灾服务器由专业工程师进行快速维修,并恢复运行状态,从而恢复部分业务和应用的正常使用。
⑦     对故障等级高的受灾服务器由应急工作小组进行简单包装后带回维修中心,进行进一步检测,并加急维修。
受灾统计及结果:
①     本次受灾情况属重大事故,受灾服务器达到10余台,其中情况严重的包含处理业务的小型机,公司存储数据的存储服务器以及作为临时业务工作备份服务器的两台NAS网络存储和个别应用服务器。
②     由于我公司抢救及时,使得部分应用于事故发生后2个小时候恢复运行。对受灾严重的存储服务器,进行加急数据恢复工作,并保证了数据的完整性,使企业避免遭受更大的经济损失。
③     因为本次有效及时的应对措施,和扎实的专业能力,使得我公司与该企业落实了长期合作关系。

附企业机房服务器故障应急预案(简版)
1  目的
为提高处理公司服务器故障的能力,形成科学、有效、反应迅速的应急工作机制,确保公司各系统的安全和高效,最大限度地减小服务器故障对生产的影响,保护公司利益,特制定本预案。
2  适用范围
本预案适用于公司局域网中提供公共服务的服务器发生和可能发生的故障。
3  预防机制
服务器故障预防措施包括分析风险,建立检测体系,准备应急处理措施,控制影响扩大。
3.1  服务器故障分类
服务器硬件或软件的故障;自然灾害(水、火、电等)造成的物理破坏;电脑病毒等恶意代码危害等。
3.2  具体措施
(1)建立安全、可靠、稳定运行的机房环境,防火、防雷电、防水、防静电、防尘;建立备份电源系统。
(2)服务器采用可靠、稳定硬件,落实数据备份机制,遵守安全操作规范;安装有效的防病毒软件,及时更新升级扫描引擎。
4  有关应急预案
4.1  机房漏水应急预案
(1)发生机房漏水时,第一目击者应立即通知相关人员,相关人员接报后应立即前往事发地。
(2)若空调系统出现渗漏水,相关人员立即通知企管部进行处理,并及时清除机房积水。
(3)若墙体或窗户渗漏水,相关人员立即采取有效措施确保机房安全,同时通知企管部,及时清除积水,维修墙体或窗户,消除渗漏水隐患。
4.2  机房长时间停电应急预案
 接到长时间停电通知后,相关人员应及时部署应对具体措施,启动备用电源,保证服务器正常运行。
4.3  服务器硬件故障应急预案
(1)核心服务器双机配置,配置好备用服务器,随时待命。
(2)发生服务器硬件故障后,相关人员应及时查找、确定故障原因,进行先期处置。若故障服务器在短时间内无法修复,相关人员应启动备用服务器,保持局域网系统的正常运行;将故障服务器脱离网络,进行故障排除工作。
(3)服务器硬件故障预防与排除参考附件1。
4.4  服务器软件系统故障应急预案
(1)做好服务器软件系统的定时备份,系统崩溃后,能够及时恢复系统。
(2)发生服务器软件系统故障后,相关人员应检查出现故障的原因并尽快排除。
(3)如遇服务器系统崩溃,应启用备份系统进行恢复。
(4)服务器软件故障预防与排除参考附件2。

附件1:
服务器硬件故障预防与排除
1  故障预防
公司主要应用系统服务器进行双机配置。公司主要系统服务器担任了供应系统,销售、生产系统,OA系统等服务器角色,机器需要24小时运行,使用率极高,老化快。为了安全,建议配置相同硬件的服务器为备用控服务器。当使用的服务器出现不可恢复的硬件故障时,马上启动备用服务器,从而减小服务器硬件故障风险。
2  故障排除
当服务器出现硬件故障,通过以下步骤排除:
(1)确定故障原因。依次查看电源、硬盘、内存、主板、处理器等,如条件许可,可使用替换法检测各硬件。
(2)恢复固件缺省配置。比如去除第三方厂商备件和非标配备件;清除CMOS,恢复资源初始配置。
附件2:
服务器软件故障预防与排除
1  故障预防
1.1  服务器初始状态备份
安装配置好服务器软件系统,经测试能够正常投入生产使用后,用GHOST软件备份好服务器系统。备份文件本机一份,光盘或移动存储一份。
1.2  服务器实时状态备份
公司局域网中服务器的系统及相应的数据库会周期更新一次,备份文件本机一份,光盘或移动存储一份。
2  故障排除
服务器软件系统出现故障,先对服务器系统查毒,升级相关系统软件,若故障依然存在,通过以下步骤排除:
(1)用备份系统还原服务器系统。GHOST文件还原服务器系统的初始状态,进入“目录服务还原模式”还原系统实时状态。
(2)重新安装配置服务器。若备份系统还原系统失败,必须重新安装服务器系统。

移动电话
400电话
在线地图