前大模型时代AI系统建设

前大模型时代AI系统建设
DiffDaymindmap
root((AI系统结合建设))
AIOps
告警、监控信息过载
监控数据挖掘
业务方向
培训
个人助理
客服
面谈考察
生物识别应用
内容提取
...
AI技术
数据处理
非结构化数据提取
数据标注
数据规范化
...
算法/模型
模型微调
模型设计/训练
NLP
CV
...
平台化(中台化)
MLOps
MaaS
融合AI技术的
低代码流程引擎
SaaS(AI功能产品)
KaaS(知识服务)
...
AI系统结合建设
中台化
- SaaS-AI功能产品
- KaaS-知识服务
- MaaS-模型服务
- MLOps
- 融合AI技术的低代码流程引擎
业务方向
- 面谈考察
- 个人助理
- 客服
- 培训
- 风控
- 内容推荐
- 辅助录入
- 生物识别应用
- …
AI技术
算法/模型
- 模型微调
- 模型设计与训练
- NLP精进:分词,纠错,问句改写,词性标注,指代消解,实体识别,长难句压缩
- CV
- …
数据处理
- 数据标注
- 数据规范化
- 非结构化数据提取
- …
AIOps
DevOps的初期代价
-
DO 分离后,运维不了解业务架构
-
分层运维边界模糊,全局协作效率低
-
工具分散建设,也进一步推动告警泛滥的状况
-
如用户端监控:测速、返回码、自动化测试、移动分析…
-
业务侧监控:各维度产品指标、舆情监控、攻击防御…
-
服务内监控:模块间调用、L5 失败率、组件监控、lvs…
-
基础资源监控:丢包断线、死机重启、硬件故障、容量监控…
-
AI 的擅长点
- 文本 NLP,与舆情监控一般可发挥内容理解能力
- 基于时间序列的预测
- 解决根因分析效果不好的问题(之前准确率只有 60%)
- 基于 CMDB,但若 CMDB 管理不严,对分析极为不利
- 若绕过 CMDB,基于 IP 做聚类分析,重新自发掘模块链分析
- 通过告警关联规则发掘模块相关性,可进行权重发掘(如频繁集发掘算法)
- 流量过滤点如网关易成为干扰因素,其扇出值太大、熵值高(可能的状态多)
监控数据挖掘
背景
-
监控系统建设林立
-
算是专业之道
-
产生多维度监控数据
-
-
无线互联网的监控比PC挑战更高,可出现的问题更多
-
在手机端会增加更多千奇百怪问题,如IP变动导致用户被安全限制。
-
跨省跨网也不利于接入调度,可能导致服务访问变慢
-
例如安全限制投诉 50%、WIFI 鉴权投诉 12%、热点切换投诉 38%
-
-
告警泛滥
如何做
- 维度组合:综合查看指标,思考系统问题点(建模?)
- 让告警更有效
- 需识别生死指标
- 不能设定阈值,靠波动判断
- 只能有一个
- 不用业务指标做生死指标
- 在线数
- 收入数
- 去阈值「通过统计设定成功率滑动窗口(动态值区间)」
- 与过去同比变化
- 多维度汇聚(可做聚类分析)
- 主被调
- 返回码
- 是否有版本发布
- 网络变更事件
- 需识别生死指标
- 根因分析:链路分析(链路本身是分层的)
- 正向
- 将告警投射到链路环节上
- 从运维经验看,相临近的告警,后面的告警引起前端告警几率大
- 逆向:干扰剔除,进行分类识别
- 指向
- 现象告警
- 原因告警
- 特征
- 持续告警:不重要不紧急,65%
- 波动告警:业务重要性决定,24% – 版本发布?故障自恢复?
- 关联告警:有因有果,及时处理,10%,这才是值得精力投向所在
- 指向
- 正向
参考
评论
匿名评论隐私政策












