看看你的运维level有多高

初级:不得要领背锅侠

不得要领的运维人员在遇到问题故障时,往往无从下手,四处求助。问题往往也解决得很慢,甚至最终无法解决,只能皮球踢给老大,老大被迫亲自收拾烂摊子或者求援技术顾问。此类运维人员的工作往往没有规范和流程,也没有体系化方法。想到哪做到哪,因此发生不少低级错误的可能也较高。例如:不做备份或备份了但不可用,目录文件权限777,没有任何运维体系以及方法论……

中级:秒定故障闪修侠

进阶到秒定故障,说明你已经上道了。毕竟,一个合格运维的基本素质就是:当问题发生了,你能快速解决。
事实上,能做到秒定故障的中级运维人员,需要很多前期沉淀。如果不做准备,很多时候问题发生了也是难以快速解决的,真正企业里迅速解决问题的人,都是基于对过去业务历史趋势的了解以及对业务的熟悉程度的。合格企业运维有两大核心:数据可靠性,以及7X24优质服务,二者缺一不可。不过,再厉害的问题解决能力,也不如问题不发生更厉害。这也是治标和治本的差异。

高级:未雨绸缪的架构师

什么是防患未然?就是在问题发生前把问题隐患解决掉,在日常排查隐患,防患于未然,而这也是核心运维人员的必备本钱。
对于企业的运维人员来说,由内部人员自己带来的故障或潜在故障至少占据总故障的50%。能否减少这部分故障,直接决定运维人员是否做背锅。这里可以给出一些有效的规避方法:

1)科学的生产线配置变更的流程和制度

例如:通过jira做运维业务变更管理、svn管理变更内容。

2)规范代码发布的流程

例如:自动化、或平台化上线就是控制流程的手段,人工就容易出错。

例如:通过跟踪系统做运维业务变更管理、svn管理变更内容。

3)运维部署配置及优化规范、专业、科学。

除了企业内部带来的鼓掌,企业外部的不可控因素会造成另外50%的故障。
企业外部不可控因素是指非技术部、运维部带来的故障。例如:市场大量推广期带来服务器宕机、恶意攻击引起的业务故障等。这里同样给出几点规避方法:
1.监控各个指标(运维层面、业务层面等)的历史趋势,努力对问题提前预判;
2.保持企业内部信息沟通通畅,与开发、市场、PR,产品等部门多沟通,在有大流量引入之前做好准备;
3.做好内外安全防范;
继续阅读