大数据时代运维怎么作
大数据时代,运维未必能见到具体的故障现象,老板只是根据投诉量增加,或者近期收入减少,就要求运维对系统作排查和定位,要求陡然增高。
操作方法
- 01
首先还是要了解老板认为出现异常的依据,在这些依据里提取故障现象,然后顺藤摸瓜,这是最简单的一种情况。
- 02
如果老板的依据只是业务数据,比如收入减少了,那就复杂很多,运维就要先分析业务的数据了,明确变化趋势发生的时间段。
- 03
列出时间段前后,列出所有相关的的技术割接、调整,以及业务的变化,除非是很明确的业务导向,还是做好自身工作,排除技术本身带来的问题
- 04
以时间顺序区分优先级,距离业务趋势变化最临近的技术调整优先级最高,而距离时间长的优先级低,在资源有限无法并行的情况下,以优先级高低来投入资源,查明问题。
- 05
使用排除法来缩小范围,这时需要运维部门已建立对运维数据的大数据分析系统,通过运行数据的变化趋势来判断该调整对业务的影响,如果不具体此条件,很不幸,这种趋势类故障就只能指望公司里有牛人存在了,普通运维方式无法定位这种情况下的异常。
- 06
在调整或割接繁重的环境,可能存在有多个疑问变动,无法明确定位的情况发生,这里应秉承先易后难,先做影响范围小的回退,再作影响大的调整回退,以减小对用户的影响,也减少对今后恢复业务原状所带来的工作量。
赞 (0)