问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

系统运维人员如何解决突发性故障?

发布网友 发布时间:2022-04-28 19:21

我来回答

3个回答

懂视网 时间:2022-05-07 00:23

最近开始做运维,连着2天发生过意外,虽然都有惊无险,但我认为是侥幸!故障记录如下:1. 2014-4-1 新项目上线,在执行DDL时忘了确认字符集,导致开发同学那边查出来是乱码。2. 2014-4-3 部署Oracle DG,自以为主库不是线上库,初始化后重启了主库

最近开始做运维,连着2天发生过意外,虽然都有惊无险,但我认为是侥幸!故障记录如下:1. 2014-4-1 新项目上线,在执行DDL时忘了确认字符集,导致开发同学那边查出来是乱码。2. 2014-4-3 部署Oracle DG,自以为主库不是线上库,初始化后重启了主库
发生事情是我们都喜欢事后诸葛亮,然后扪心自谓:"我下次注意",不要忘了,生产环境是随机行走的,你无法意料它的走向。我的意思是不可控的风险很多,甚至有些是无法避免。
针对这2天的故障,做了些反思:1. 备份:任何操作前都必须备份2. 删除:该操作能不做就最好不做,要做的话,最好先各方沟通协调,确认无误再执行,执行前也必须先备份3. 重启:重启前必须知会相关业务方、程序方以及你的部门老大4. 评估:你必须很清楚你所执行命令的用途、会有哪些风险、变更是否可回滚....等等5. 环境:服务器资源(CPU,IO,MEM)、数据库实例个数以及各自状态、所服务的业务是什么......这些是你管理的DB,你关心过他们吗?6. 方案:上线前或执行重大操作,必须先整出一份方案,细化到每一份可能带来的风险
如果有兴趣的朋友,也可看下之前写的文章逃离故障的十条运维工作经验总结
请尊重而且敬畏你的线上环境!
假如下次注意,也许会很幸运。
Good Luck!

热心网友 时间:2022-05-06 21:31

  故障处理,大概遵循以下几个大的方向。
  1、收到报警或定期巡检;
  2、检查是否误报;
  3、确认报警内容属实进行相应处理;
  4、检查是否有预案,如有则按照预案处理,如无则尽快联系厂商处理,同时对此事备案。
  在处理问题环节,如果在自身团队无法处理的时候,及时和厂商联系,获取更专业的支持。

  对于系统运维来说,不仅仅要关注软件层面的问题以及运维,同时对于基础IT建设也要有一定的了解,最起码要知道出现问题应该找谁解决。随着现阶段技术的发展,不可能做到一个人对所有技术面面俱到,那么在无法解决问题的时候,如何找到解决问题的人,应该是每一个系统运维人员所必须要了解的。
  空调故障的问题偶然性很强,但是依然有方法避免,那就是采取硬件服役到一定年限后更换,而不是等它彻底损坏后再更换。但是这种方法会带来很多额外的费用支出,一般来说,在企业中推行这种方法需要IT部门有一个强有力的后盾去支持才能较好的达到预期效果。
  还有一点是值得注意的,不管具体是什么故障,做好预案和备案最重要,以防止这种问题再次发生,或者再次发生后,也可以极为快速地去解决问题。

热心网友 时间:2022-05-06 22:49

任何计算机系统都有出现故障的时候,可能发生在测试阶段,也可能发生在系统刚刚上线,还可能发生在已经稳定运行很多年的系统上。这些系统出现故障所带来的负面影响可大可小,小到一个终端的软件无法使用,大到整个系统瘫痪……企业网络想要固若金汤是IT部门梦寐以求的目标,作为系统运维人员,应该如何解决这些突发性故障问题?记一次突发性故障作为一名IT运维人员,工作中最常发生的系统方面的故障是很正常的一个现象,并且你永远也不会知道下一次故障发生在什么时候,如果公司的系统运维已经做的比较成熟了,系统底层还比较强健,真正出问题的就都是系统之上的"应用",由于每种应用不同,所以并不是太好谈哪一种应用会经常出问题。不过,在前不久,这位技术达人的公司发生了一次较大故障,故障成因很简单,就是由于空调物理机损坏,导致多台服务器过热,部分业务中断。在更换新的空调之后问题得以解决。当然,在没有更换之前,当时也采用了一些"笨办法",比如使用大功率的风扇、开启机房的排气窗等等,暂时缓解了空调损坏造成的不良影响。故障处理那些事儿出现故障的同时必然会造成一些业务的中断,可想而知,若是故障得不到及时的处理,那么公司网络将会处在一个"瘫痪"的状态,这将是很可怕的事情,后果不堪设想。幸好九叔所在的运维团队发现问题很及时,在机房中安装有温度报警系统,温度达到阀值后会给相关运维人员发送短信。比较棘手的是,这次故障的根本原因是空调坏了,而不是常见的断电、瞬间电流过大等情况。由于出问题的这个机房的服务器没有线上业务,因此实际造成的损失并不大,但是影响不太好。对于类似故障处理,大概遵循以下几个大的方向。1、收到报警或定期巡检;2、检查是否误报;3、确认报警内容属实进行相应处理;4、检查是否有预案,如有则按照预案处理,如无则尽快联系厂商处理,同时对此事备案。在处理问题环节,如果在自身团队无法处理的时候,会及时和厂商联系,获取更专业的支持。故障后的思考与总结俗话说,吃一堑长一智,出现故障不可怕, 可怕的是不能从故障中得到一些经验教训。九叔谈到:"对于系统运维来说,不仅仅要关注软件层面的问题以及运维,同时对于基础IT建设也要有一定的了解,最起码要知道出现问题应该找谁解决。随着现阶段技术的发展,我们不可能做到一个人对所有技术面面俱到,那么在无法解决问题的时候,如何找到解决问题的人,应该是每一个系统运维人员所必须要了解的。空调故障的问题偶然性很强,但是依然有方法避免,那就是采取硬件服役到一定年限后更换,而不是等它彻底损坏后再更换。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
天秤男吃醋的八大表现 天秤座男生吃醋时的表现 人工授精之后注意什么 人授后需要卧床休息吗 ...经两个月没发工资了,我不想干了,老板不给钱怎么办? 新手玩《兰斯10》这款游戏的快速通关攻略是什么? 兰斯10怎么用食券快速刷SSR 兰斯10二周目7cp怎么达成 兰斯10大侵攻达成条件介绍 跳舞同手同脚叫什么来着 喷油嘴清洗机主要功能 学会这个方法你也能裁剪出好看的图片素材?PPT图片如何裁剪?_百度... 《围城》的精彩片段及赏析 海以南不再南 对应的情侣网名,急,谢谢 良人怎奈变凉人,旧城之下念旧人。 终有弱水替沧海,再无相思寄巫山。 怎么回复_百度问一问 女朋友发表,南城以南不在蓝,北城以北不在美,我应该怎么回复? 城南以南不再蓝,城北以北不再美。城中从此不再挤出自哪里? 城南以南不再蓝,城北以北不再美。城中从此不再挤,心中从此在无你。南墙已撞,故事已忘出至哪里? 徐州哪里考幼师教育证 徐州怎么考幼师证? 江苏省大专生怎么考幼师资格证? 想考个幼师证,怎么考 徐州幼师培训如何考证? 尼尔机械纪元logo开始界面跳出怎么办 尼尔机械纪元跳出解决方法 企业微信必须绑定手机号 如何将一个上的聊天记录共享给另一个? 尼尔机械纪元闪退,怎么解决? 想做php,方向是只做前端还是需要前后端都要学呢? ...朋友是做PHP的,他的建议是先学WEB前端后再去学PHP 学习php后台为什么要先学习前端知识 为什么要学习前端 除法律法规及中国证券会利用规定外证券基金经营机构不得将重要信息系统的运维_百度问一问 系统运维 结合实际软件系统运维,简单谈谈如何提高系统安全 下面哪一个不是系统运行维护阶段风险管理的工作内容 微信绑定了手机号和qq号,为什么不能解绑手机号码了? 手机绑定qq怎么解除手机绑定QQ怎么解除但是它没有解绑两个字_百度问一问 手机qq绑定手机后能不能解绑?能的话怎么解? 也绑定了qq为什么不能进行手机解绑手机号 qq账号如何解绑手机号 微信绑定了手机号和qq号,为什么不能解绑手机号码了 微信能解除绑定qq不能解绑手机号怎么办 QQ密保手机无法解除 山姆代购靠什么赚钱? 代购价格那么低他们怎么赚钱的啊? 迪士尼代购怎么赚钱 淘宝申请退款支付宝红包返还吗 刘建华的个人履历 淘宝申请退款,支付宝红包还能退回来吗 请问中国原石油部副部长是否有姓程或姓陈的,祖籍西安人? 赣州的近代的名人都有哪些