前大模型时代AI系统建设

mindmap
  root((AI系统结合建设))
    AIOps
      告警、监控信息过载
      监控数据挖掘
    业务方向
      培训
      个人助理
      客服
      面谈考察
      生物识别应用
      内容提取
      ...
    AI技术
    	数据处理
    	  非结构化数据提取
    	  数据标注
    	  数据规范化
    	  ...
    	算法/模型
    	  模型微调
    	  模型设计/训练
    	  NLP
    	  CV
    	  ...
    平台化(中台化)
      MLOps
      MaaS
      融合AI技术的
低代码流程引擎 SaaS(AI功能产品) KaaS(知识服务) ...

AI系统结合建设

中台化

  • SaaS-AI功能产品
  • KaaS-知识服务
  • MaaS-模型服务
  • MLOps
  • 融合AI技术的低代码流程引擎

业务方向

  • 面谈考察
  • 个人助理
  • 客服
  • 培训
  • 风控
  • 内容推荐
  • 辅助录入
  • 生物识别应用

AI技术

算法/模型

  • 模型微调
  • 模型设计与训练
  • NLP精进:分词,纠错,问句改写,词性标注,指代消解,实体识别,长难句压缩
  • CV

数据处理

  • 数据标注
  • 数据规范化
  • 非结构化数据提取

AIOps

DevOps的初期代价

  • DO 分离后,运维不了解业务架构

  • 分层运维边界模糊,全局协作效率低

  • 工具分散建设,也进一步推动告警泛滥的状况

    • 如用户端监控:测速、返回码、自动化测试、移动分析…

    • 业务侧监控:各维度产品指标、舆情监控、攻击防御…

    • 服务内监控:模块间调用、L5 失败率、组件监控、lvs…

    • 基础资源监控:丢包断线、死机重启、硬件故障、容量监控…

AI 的擅长点

  • 文本 NLP,与舆情监控一般可发挥内容理解能力
  • 基于时间序列的预测
  • 解决根因分析效果不好的问题(之前准确率只有 60%)
    • 基于 CMDB,但若 CMDB 管理不严,对分析极为不利
    • 若绕过 CMDB,基于 IP 做聚类分析,重新自发掘模块链分析
    • 通过告警关联规则发掘模块相关性,可进行权重发掘(如频繁集发掘算法)
    • 流量过滤点如网关易成为干扰因素,其扇出值太大、熵值高(可能的状态多)

监控数据挖掘

背景

  • 监控系统建设林立

    • 算是专业之道

    • 产生多维度监控数据

  • 无线互联网的监控比PC挑战更高,可出现的问题更多

    • 在手机端会增加更多千奇百怪问题,如IP变动导致用户被安全限制。

    • 跨省跨网也不利于接入调度,可能导致服务访问变慢

    • 例如安全限制投诉 50%、WIFI 鉴权投诉 12%、热点切换投诉 38%

  • 告警泛滥

如何做

  • 维度组合:综合查看指标,思考系统问题点(建模?)
  • 让告警更有效
    • 需识别生死指标
      • 不能设定阈值,靠波动判断
      • 只能有一个
      • 不用业务指标做生死指标
        • 在线数
        • 收入数
    • 去阈值「通过统计设定成功率滑动窗口(动态值区间)」
    • 与过去同比变化
    • 多维度汇聚(可做聚类分析)
      • 主被调
      • 返回码
      • 是否有版本发布
      • 网络变更事件
  • 根因分析:链路分析(链路本身是分层的)
    • 正向
      • 将告警投射到链路环节上
      • 从运维经验看,相临近的告警,后面的告警引起前端告警几率大
    • 逆向:干扰剔除,进行分类识别
      • 指向
        • 现象告警
        • 原因告警
      • 特征
        • 持续告警:不重要不紧急,65%
        • 波动告警:业务重要性决定,24% – 版本发布?故障自恢复?
        • 关联告警:有因有果,及时处理,10%,这才是值得精力投向所在

参考