企业大数据历史与应用趋势
企业大数据历史与应用趋势
DiffDay大数据
Gartner 技术成熟度曲线的随动
大数据并不是一个学术概念,而是自2010年从产业界孕育起始,陆续有开源项目配套出现。2013年大数据到了炒作顶点,到14年往落地方面去走。从15年开始,大数据概念已经消失,取而代之的是“机器学习”。16年机器学习炒作到顶峰,17年深度学习代替机器学习站在顶点上,18年都差不多只谈深度学习。
内涵
-
数据驱动智能化是大数据的本质特征
-
相较技术,大数据更是商业模式创新和企业治理方法论(从它的孕育点就可见一斑)
肩扛去卖菜和开车去卖菜,是有很大的经营区别的。大数据相当于高速公路,将从种菜思路改变成公路思维,但不会改变你的业务本质
-
短期内,强人工智能还不会出现
当前还不能进行因果学习,都还停留在弱人工智能的阶段
人类还可暂时领先的领域:跨领域推理,抽象能力,知其然和所以然,常识,自我意识,审美,情感
能解决什么问题
-
数据孤岛
-
数据异构
产生一系列技术来解决如上两点,融合,继而用好数据
目标朝向
智能化,人性化,精细化
数据分析的流程
目标体系指导(自顶向下)
- 指标体系
- 数据采集体系
- 数据治理体系:清洗变换
- 数据分析
- 数据可视化
新的工业革命呼之欲出
生产力发展历史规律告诉互联网什么?
新生产力(技术和产品)改变新的商业模式
-
第一次工业革命 - 200年
-
第二次工业革命 - 100年
-
第三次工业革命 - 50年
2015年以前50年的时间,其主要特征是:(更加)自动化的流水线, 生产力:电子及IT,所以也被称为基于电脑和网络的知识信息革命
- 第四次工业革命
以大数据,人工智能,物联网等信息技术为基础的超连接革命。
主要特征:智能化;生产力:物联网
数据的广度,宽度,深度呈几何式增长,人类认识有了更深更广的数据基础。其中,广度只指以标签化描述数据更多特征;宽度是指数据类型除了量化数据,还包括了非结构化的图片,视频,文字等;深度是指通过知识图谱,形成了数据关系的认识网络。
中国过去20年IT发展
沿着如下这么一条路线
- 信息化
- 移动互联网化(每个人都在产生数据,过去10年)
互联网=流量+内容+服务
-
数据化(云计算,大数据–服务专业化,数据互联融合)
数字化对企业的价值和意义
- 聪明经营。先知先觉先行
- 提升管理。提升内部管理和运转效率,简化流程降低耗时
- 防范风险。风险分析前移,从财务数据,业务数据,行为数据,再借助人工智能精准监测分析,甚至微表情
- 优化服务。服务庞大客户群,人力不可为,数字化能力7*24必不可少
- 降低成本,取代人工
-
智能化(数据的资源化,服务的智能化)
人工智能的前进要素
-
数据+算法+算力(能量)
-
芯片+平台(PAAS+SAAS)+大数据(基础设施)
平台有:视觉图像,NLP,预测 等
从弱人工智能到强人工智能(因果推理),乐观看还需要20~30年的时间,或许算力的突破要突破硅基芯片,向碳基芯片或生物芯片要助力,从脑科学材料学方面借力启发
人工智能想模拟人的听说读写,是一种交互形式的改变
现在的机器智能是”大数据小任务“,如GPT-3有1750亿参数,使用上千GB的数据训练出来。如何让机器智能有人脑小样本学习的能力,动物的直觉能力及举一反三的能力,是面临的巨大挑战
到了2022年12月,通用人机对话智能GPT3.5横空出世,让上面的时间推测掉进了垃圾堆
人脑的模式
- 人脑的运行速度慢过计算机1000万倍,但能耗低很多(整个人基础代谢大概相当于100w的灯泡,虽然大脑耗能占比较高)
- 更像一个量子计算机,彼此之间相互联动,有很多捷径,不像当前的电脑是一个固定的程序,多核并行度要弱于人脑
- 人类先天打造了一个包含大量神经元的熵极高的初始化状态–出生的婴儿有大量神经元且之间有大量的连接,伴随着成长,很多连接消失,有价值的连接不断强化,熵变得越来越低,大脑中变得越来越有序,也变得越来越固执
- 我们的记忆也是不断以熵最小化的形式组织及重构,换种说法我们总在找最低存储代价的特征抽取方案,仿佛有一个关乎存储代价的惩罚函数在不断指导算法的更新
人脑的配置就像:量子CPU+超级显卡+小号运行内存+超级内存的组合
这一切的结果来自于大自然的压力,人类的识别器必须执行更简单的运算,快速的进行反应
新革命的形态
互联网下半场的第一起跑者,摩拜单车
10年内 硬件+软件形式重做一遍衣食住行;所有有传感器的,都可以看作新形态