数字化时代回看运维

从维护到流程革命

一想起”运维“这个词,大家就想到的是运行维护,保证系统稳定运行。

中国互联网发展创造了科技神话,伴随着用户和设备规模不断扩大,运维技术也不断发生变化

  • 人工运维
  • 脚本和工具的使用
  • 平台建设,向自动化,智能化方向发展

运维和开发人员从”分离“状态转变成”融合"状态,DevOps从一种实践方法论从09年出现,逐渐涉及到开发和运营生命周期的各个阶段。

运维工作也从操作性的维护工作,发展为需要多方面知识,具备IT综合能力的研发运维工作,难度也翻了山头。从维护性工作到软件开发革命。

从人工脚本到自研平台

互联网早期,线上系统规模和服务器数量不大,可用脚本来进行部署维护工作,最初的业务运维,也就是做好服务器的部署和变更,及时处理掉一些告警,排除隐患

2010年左右,互联网行业快速发展(SNS互动大爆发),用户规模增大,要维护的系统资源有了大规模的增长,靠人工脚本已经捉襟见肘,运维的“资源”和运维岗的人数同步上升,到后来,资源可大规模投入,但运维人员可不能照样同步增加

人工运维存在风险,效率也无法支撑规模化发展,就进化到用平台去解决运维问题的主流方向,运维平台使得研发和运维互为结合,DevOps概念开始出现

云计算的发展,成千上万的服务器,运维必须从全局角度思考如何用平台化的手段解决问题,追求大规模场景下的效率,用集中化的监控平台把云数据中心的告警等统一在一个地方管理

运维从最初的职能(安全+质量),扩展到(安全+效率+质量+成本)多维度并看

云计算的成本是商业模式里非常重要的一个因子,需考虑如何用最优的成本去提供优质服务,要极致,就要对系统有精细化的掌控,运维有了开发职能,对研发能力要求也提升了,难度非脚本时代可比拟的了

云服务

数据中心的运维是云服务正常运行的一大支柱,电力系统,空调系统,新能源储能跨界设计

早期的基础设施层面,属地化运营,监控告警都是厂商提供的,但随着规模扩大,效率要求提升,就需要自研集中平台化的统一运维平台,全层级掌握非厂商层面可以做到(集中监控,园区,模组,配电单元,采集器等)

过去的告警一般从设施出问题到捕获到告警大概是分钟级,自研的要求能提升到10秒下,及时定位排除故障

云数据中心,还引入对基础设施的物理建模,用数字孪生技术实现对基础设施的配电和暖通的图形建模,可视化表征整个数据中心实时运行状况

基于图模一体的技术实现告警风暴的收敛,包括告警的一些降噪处理,把影响到现场运营效率的无效告警在平台层面处理掉

  • 运维利用故障树,知识图谱等方式快速定位故障根因,节省故障排查时间
  • 用AI模型对设备进行精准预测,实现设备自动化巡检,保障运营安全等
  • 用机器学习算法和设备机理结合,寻找最优设备运营控制策略,节约运营能耗

DevOps

研发团队在引入敏捷后讲究快速变更和迭代,运维层面追求的还是稳定,可靠,安全,沟通协调琴瑟不和,总是争论。

DevOps之父提出一个解决方案,聘请“思维过程与开发一样的运维人员”,建设系统以一步构建和部署项目。最终发展成一系列自动化整合实践,让所有团队回到最初的目的上来,更快更可靠的构建测试,更高效的交付软件。

  • 源代码管理
  • 持续集成
  • 软件测试自动化等流程

背后避免浪费,自动化,全流程的思想给企业带来了一定的收益,降低了信息化转型过程中的门槛

DevOps是敏捷发展的自然结果,在最后一公里破墙衔接起来了。

谈业务成本的时候,在分析每一个不良的中间环节时,都需要去思考怎么尽可能去减少浪费

微服务

微服务是研发组织扩张的一剂良药,但也带来了更高的运维复杂度,提高了可观察、测试等难度,容器的出现给微服务提供了一个量身定做的底座

研发组织扩张是应对复杂度上升的需要

容器化提供支持后,DevOps自动化的能力,成本管理能力都得到了加强。DevOps需对全流程有更多的观察,更多的透明性。容器技术的资源伸缩,成本的控制,很好地提供了支持

当大家有了共同的目标,开发团队也在转型,会去关注质量的左移和右移,尽早发现问题,避免问题向下游走,也会更多去关注运维层面的问题,根据发生的问题去做复盘和根源分析,缩短问题解决的时间,更高频的交付。

软件运维的主要矛盾是不断增加的架构复杂度和快速变更间的矛盾。按理说,运维也会参与架构设计层面的事情,对架构进行抽象,提供更标准化的架构设计和建议,因为标准化的架构设计就意味着更好更轻松的运维能力,抽象层的建设也能更好实现运维层面的自动化工作。

AIOps

在深度上,在数据问题上,结合人工智能,就有了AIOps,基于算法的运维

海量信息中有大量需要去挖掘和观察的信号,这正是AI擅长的范围。

通过挖掘在可观测领域曝出来的这些数据,消灭噪音,做自动化告警的聚合,最终带来更深入,更准确,更快的运维,价值是非常明显的

怎么快速在大量报警信息中得到因果关系,快速选择最正确的响应变更路径。进一步提升故障预警能力,建立提前防御的机制。

AIOps也给运维工程师提出了更高的要求,不仅左移到架构,代码方向,更要提升一些更垂直的能力,如掌握大数据,机器学习这些知识。把运维经验结合运维数据,用机器学习的方法对这些数据进行归纳总结,模型评估,模型选择,参数调整等运维决策,成为一种多领域结合的专家

数字化转型

数字化转型意味着引入技术,流程和文化以实现共同目标,拆开来看

  • 资产的全生命周期管理,实时掌握资源使用情况,系统健康状态
  • 实现数据的可视化,自动化部署,自动化处置,自动化故障接管等
  • 逐步发展的趋势是:提高各岗位对数字精细化的敏感度
    • 高密度IT机架运行大数据和AI业务会消耗大量电力,要确保关键业务可靠运行,必须保证机架峰值功率运行在额定容量内。没有可信精细数据,可能倾向于保守运营,预留太多冗余容量。数据精细可信及有综合分析能力(应对数据异常)时,可在保证可靠情况下充分提升电力容量利用率,降低电力成本,也符合各企业碳中和的战略目标

数字化是对现实场景的数字化表征,一定体现在对数据的实时掌握的基础上,要求数据的采集,监控是全方位的,并且是立体的。

数字化转型意味着团队经常应对发生冲突的挑战

建立学习型组织,每个角色都有全流程能力

结语

一路而来,是一路超载发展的路程。“超载”,就是在不同时期,根据业务需要被赋予不同的职责和责任,有此而来,想象的空间才会变大,可做的事情也越来越多,未来会有更多可以发展的方向。