大语言模型LLM
大语言模型LLM
DiffDayChatGPT
GPT:Generative Pre-trained Transformer
科技部长的金句:踢足球都是盘点,射门,但是要做到梅西那么好也不容易
惊喜与惊醒
大语言模型的效果好到令人咋舌,我们距离LLM的认知和发展理念,距离世界最先进的想法,差得有点远
- Bert出现后1~2年间,国内追赶技术很快,也提出了一些改进模型
- 分水岭在GPT-3,即为2020年中,体现了LLM应往何处去的发展理念,全球看中的人很少,梯队明显
- 包括Google在内,对于LLM发展理念的理解,都落后OpenAI一个身位(半年到一年的时间)
- 国内可能落后2年左右
鹰酱的风格是进化论模式,各个方向上各个公司都搞低成本试探进攻,让企业家去承担试错成本。进化是允许犯错的,甚至是进化不可少的前提
最难的事情 : 方向可行性,已经被蹚出来了(此正是技术最难的一点)
-
我方堆资源,集中力量办大事的优势可以发挥
-
商业的竞争,开源的平替也在出现(甚至可能是故意的泄露)
-
老美限制我们,软件上挡不住,那就硬件上挡
芯片型号 售价(美元) 售价(人民币)-- 22年汇率还有优势 供应中国情况 V100 10000 69000 A800 12000 82800 缺货 A100 15000 103500 断供 H100 36500 251820 断供
A800是A100阉割特供版,计算性能相似,数据传输速度降低30%,影响AI集群训练速度和效果,还缺货,一次只能采购数百片
NLP研究范式转变
从深度学习到两阶段训练模型
深度学习期
-
由大量改进LSTM模型及少量改进的CNN模型作为典型的特征抽取器
-
以Sequence to Sequence(或叫encoder-decoder亦可)+Attention作为各种具体任务典型的总体技术框架
在这些技术下,研究目标归纳为如何有效增加模型层深或模型参数容量。就是往encoder-decoder里不断叠加更深的LSTM或CNN层。
但受限于有限的训练数据总量(不够匹配模型容量增加)和特征抽取器有限的表达能力(不能吸收数据里蕴含的知识),最终这条路径相较于飞深度学习方法并没有出现碾压式的优势
三元或四元甚至更高阶的模型是不是能覆盖所有语言现象。答案是不行
上下文之间相关性可能跨度非常大,甚至可以从一个段落到另一个段落
两阶段训练大模型
Bert和GPT模型出现后,在学术研究和工业应用角度看,都带来了一个技术飞跃,子领域的技术方法和框架日趋统一
Bert出现一年左右,技术栈就基本全线收敛到此二位上。
图像领域预训练模型(vision transformer)应用到下游任务,带来的效果收益,远不如Bert/GPT应用在NLP下游任务那么显著,要是蹚通了,图像处理的各个子研究领域可能也会逐步消失,直接完成终端任务
带来的影响
中间任务消亡
中文分词,词性标注,命名实体识别(NER),句法分析,指代消解,语义Parser等,这类任务不是解决任务的实际需求,但作为解决任务的中间阶段或辅助阶段存在。而用户其实只关心最终具体任务有没有干好。
通过大量的预训练,Bert/GPT已经把这些中间任务作为语言学特征,吸收到了Transformer参数里,无需对中间过程专门建模,可端到端直接解决最终任务。
在技术发展的早期阶段,很难一步做好有难度的最终任务,科研人员就把难题分而治之
技术路线统一
最终任务分类:NLU+NLG
NLU:文本分类,句子相似性计算,情感倾向判断,意图识别等,都是分类任务。
统一到了Bert为代表的“双向语言模型预训练”+应用fine-tuning的模式
NLG:聊天机器人,翻译,文本摘要,问答系统等
统一到了GPT-2为代表的“自回归语言模型(从左到右单向语言模型)+zero/few shot prompt”的模式
绝大多数人当时都低估了GPT这条路线的潜力,视线中心都聚焦到了Bert模式上。
预训练到通用人工智能
从GPT-3以后,尚在加速演进
ChatGPT
ChatGPT是触发这次范型转换的关键点,在InstructGPT出现前,LLM其实出于过渡期。
ChatGPT最惊艳和最大的贡献是基本实现了让LLM适配人的命令表达方式,给出了很好的解决方案,增加了易用性和用户体验
证明了可以去直接追求理想的LLM模型,未来的技术趋势应是越来越大的LLM模型,增加预训练数据的多样性
-
预训练模型早期,人们普遍更看好Bert一些
- fine-tuning方式解决下游任务,Bert>GPT
- Fine-tuning效果占优的领域是因为领域训练数据量大,从数据安全角度,fine-tuning还没那么快消失,但已经不是潮流了
-
随着技术发展,目前规模最大的LLM模型,几乎清一色类似GPT-3的模式,背后有一定的必然性
-
NLG表现形式可兼容NLU,反之则不行。分类问题可转换成让LLM生成对应类别字符串,Google的T5模型,形式上就统一了NLU+NLG的外在表现形式。
-
Zero/few shot promot方式做好任务,采取GPT模式
- 数据是海量的,要吸收知识,需非常多的参数来存储只是,必是巨无霸模型
- 模型规模巨大,有能力做出及改动这个模型参数的机构必然少
- 就算把模型开源出来,中小机构和个人也无力部署,更不用说用fine-tuning这种模式去修改模型参数了
- LLM as Service的模式运行,超大模型一定会走向AGI(人造通用智能)
- ChatGPT用Instruct取代了prompting,由此带来新的技术范式转换
-
ChatGPT改变了GPT-3.5什么?
GPT-1学习资料5G,参数1.17亿
GPT-2学习资料40G,参数15亿
GPT-3学习资料45T,参数1750亿
GPT有了海量知识,但回答形式和内容却不受约束,因为它知道的太多了。见到了一个人几辈子都读不完的资料,会随意联想,像一只脑容量超级大的鹦鹉,如何指挥它成了一个目标。
ChatGPT注入了人类偏好知识,什么是好的回答,什么是不好的。如详细回答是好的,带有歧视内容的回答是不好的,人类对回答质量好坏的偏好,用对话模板去矫正其开卷有益时学到的不规范习惯(跟教鹦鹉说话一个道理),通过reward-model反馈给LLM数据,得到一个懂得人话,比较礼貌的LLM。
用人工专门写好的优质对话范例让GPT去接龙
LLM的知识构成
Transformer是足够强大的特征抽取器,尚不需做特别的改进,那它学到了什么?
语言类知识和世界知识
- 语言类知识是指语法,词性,句法,语言等有助于人类或机器理解的自然语言知识
- 世界知识指发生在这个世界上的一些真实事件和常识性知识
对于Bert类型的语言模型来说,只用1000w到1亿单词的语料,就能学好句法语义等语言学知识;事实类知识要更多的训练数据。
随着Transformer模型层深的增加,能学到的知识数据以指数级增加,把模型看作是以模式参数体现的隐式知识图谱,一点也不违和。
如何存取知识
- 多头注意力(MHA)占了参数总量的1/3,用于计算单词或知识间的相关强度,对全局信息进行集成,建立知识间的联系,大概率不会存储具体的知识点
- FFN(Feed Forward Network)结构占了剩余2/3,承担主体知识的存储。FFN的输入层其实是某个单词对应的MHA的输出结果Embedding,将整个句子有关的输入上下文集成到一起的Embedding,代表整个输入句子的整体信息
- Transformer低层对句子表层模式做出反应,高层对语义模式做出反应。也就是低层FFN存储语法,句法等表层知识;中层和高层存储语义及事实概念知识
LLM的规模效应
目前效果最好的LLM模型,参数规模大都超过了千亿(100B),如OpenAI的GPT-3规模175B,Google的LaMDA规模540B,华为盘古模型200B,百度文心260B,随着模型不断增长,会发生什么?
-
研究证明,越大的LLM模型学习效率越高,学到了更多知识,任务效果更好。多数NLU任务,都是知识密集型任务,近两年都在模型规模增长下获得了极大的效果提升。
-
模型规模是解锁LLM新能力的关键,出现某种涌现能力带来意想不到的精彩,如chatGPT的推理能力。
思维链是典型的增强LLM推理能力的技术,流利性也是在规模上得以解决的。
上下文学习里出现的涌现效应,等价于隐式的微调,但如何有效尚未搞明白
想出现涌现能力,模型规模大小和具体任务有一定的绑定关系
图表第一行的3位数加法任务,模型只要达到 13B(130亿参数),就可以具备涌现能力,但是对倒数第二行的 Word in Context Benchmark任务而言,目前证明,只有540B 大小的模型才可以做到这点。我们只能说,就In Context Learning而言,如果模型达到 100B, 大多数任务可以具备涌现能力。
把模型做小会影响LLM的涌现能力么
DeepMind 2021年发表的模型 Chinchilla,这个模型目前做各种任务的效果,和 540B大小的PaLM 基本相当。Chinchilla的思路是给更多的数据,但是把模型规模做小[4]。
Chinchilla模型大小只有 70B,是Gopher的四分之一,但是付出的代价是训练数据总量,是Gopher的四倍,所以基本思路是通过放大训练数据量,来缩小模型规模。
在以后训练模型的时候,可以考虑 先增加训练数据 ,降低模型参数量,把模型做小(保险起见,不应小于70B),先把模型参数利用充分,在这个基础上,再继续增加数据,并推大模型规模。
第二个小模型代表是 Meta 发布的开源模型 LLaMA,它的做法其实很好理解,本质上就是开源的 Chinchilla,它的思路是完全遵照 Chinchilla 来做的,增加训练数据,并把模型规模做小
Transformer的稀疏化
目前规模最大的LLM中,相当比例的模型采取了稀疏结构,如GPT-3,PaLM,好处是它可以极大减少LLM的训练时间和在线推理时间
有研究表明,标准的Dense Transformer在训练和推理时,它本身也是稀疏激活的,既然如此,不如直接迁移到稀疏模型
随着模型越大,稀疏模型带来的收益越明显
人机交互
从In Context Learning到Instruct理解
Zero shot prompt是Instruct的早期叫法,内涵一致,具体做法不同
- 早期Zero shot prompt实际上就是不知道怎么表达一个任务才对,就换不同的单词或句子,反复尝试好的任务表达方式。这种方式已经被证明是在拟合训练数据的分布
- Instruct做法则是给定命令表达语句,试图让LLM理解它,尽管表面都是任务的表述,但思路是不同的
In Context Learning和Few shot prompt意思类似,就是给LLM几个示例做范本,然后让LLM解决新问题
- In Context Learning也可以理解为某项任务的描述(用例子来具象表达任务命令),只是Instruct是一种更抽象的描述形式
LLM用来生成Instruct效果很不错,在一些任务上超过人类的表现,所以Prompt engineer也是一个不长久的职位
- Fine-tuning和In Context Learning表面看似都提供了一些例子给LLM,但两者有质上的差别
- Fine-tuning拿这些例子当训练数据,用反向传播去修正LLM的模型参数
- 但In Context Learning只是拿出例子让LLM看了一眼,并没有根据例子去修正参数,就要求它去预测新例子(正是In Context Learning的神奇之处,尚无清晰的原理解释)
如何增强LLM的推理能力
咱们通常不会因为一个人单靠记忆力强,就说这个人很聪明,还要看他是否有强的推理能力,推理能力是智力水平更佳的标准。强大推理能力也是让用户认可LLM的心理基础。
推理能力的本质是综合运用很多知识,去推导出新的知识或新结论
在LLM推理方面相关的工作和研究,可归为4大类
-
基于Prompt的方法,通过合适的提示语或文本,更好地激发LLM本身就具有的推理能力,google在这个方面做了大量很有成效的工作
- 更好的展示出能力的技术方法,直接在问题上追加辅助推理Prompt,在众多领域都很有效
- 第一阶段在提问的问题上追加“Let’s think step by step”这句提示语,LLM会输出具体的推理过程;第二阶段,在第一阶段的问题后,拼接LLM输出的具体推理过程,并再追加Prompt。如此简单的操作,却可以大幅增加LLM在各项推理任务中的效果,比如在数学推理测试集GSM8K上,加上提示语后,推理准确率直接从原先的10.4%提升到了40.4%,可谓神奇。(猜测预训练数据里面存在大量的此种数据,提示语激发LLM模糊得“回忆”起某些例子的推导步骤)
- 更好的展示出能力的技术方法,直接在问题上追加辅助推理Prompt,在众多领域都很有效
-
COT
标准的COT由人工来写推理步骤,而Zero-shot COT大概是通过提示语,激活了记忆中某些包含推理步骤的示例。人工给出的示例,准确性是有保障的,所以自然标准CoT效果会更好。
最早的COT概念文章发表于22年1月,虽然做法简单,但应用COT后模型推理能力得到了巨大的提升
意思是让LLM明白一个道理:在推理过程中,步子不要迈的太大,化大问题为小问题,积小胜为大胜
COT提出不久,很快在22年3月,一种被称为“Self-Consistency”的改进技术继续助力提升准确率,它要求LLM输出多个不同的推理过程和答案,然后用投票的方式选出最佳答案,将GSM8K测试集准确率提高到83%左右。简答的方法往往蕴含着深刻的道理。虽然COT起效仍有黑盒的味道。
-
Least-to-most prompting,应用分治的思想,将一个复杂的推理问题,分解成若干更易解决的子问题,应证了COT的工作模式。要解决Final Q问题,先把原始问题和Prompt交给LLM,让LLM给出最终问题的前置子问题sub Q,然后用原始问题拼接子问题sub Q及答案,再去问LLM最终问题Final Q
-
在预训练过程中引入程序代码,和文本一起参与训练,这应是OpenAI实践出来的思路
- 体现出一种通过增强多样性的训练数据,来直接增强推理能力的思路
- 为何预训练模型可以从代码中获得额外的推理能力,确切原因未知。可能开始只是尝试从文本生成代码,而代码中往往包含很多文本注释,本质上类似于预训练模型做了两种数据的多模态对齐工作
- 支持越来越多的任务类型,主要是通过增加LLM预训练数据的多样性来达成
算力约束下的最优培养策略
假设用于训练LLM的算力总预算(如多少GPU天)给定,是应多增加数据量,减少模型参数呢,还是说数据量和模型规模同时增加,减少训练步数呢?
OpenAI选择了同时增加训练数据量和模型参数,但采用早停策略来减少训练步数的方案
- 且优先增加模型参数,然后才是模型数据量
- 假如算力预算增加了10倍,那么应增加5.5倍的模型参数量,1.8倍的训练数据量,此时模型效果最佳
- 单调增加模型参数,固定住训练数据量,这个做法也是不对的,限制了模型的潜力
为何是OpenAI
胜在一开始就自我定位比较高,要做出人物无关超大型LLM,以生成一切的方式解决各种实际问题,且应能听懂人类的命令。不受外界干扰态度坚定不移。
- GPT-1比Bert出来更早,Bert证明了双向语言模型对于很多NLU任务,效果比GPT这种单向语言模型更好,尽管如此,GPT-2也没有切换技术路线,且开始尝试zero/few shot prompt。因效果比Bert+fine-tuning差的比较远,所以大家都没太当回事,甚至不理解它为什么要始终坚持走单向语言模型的路线。
- GPT-3展示出不错的zero/few shot prompt能力,后面技术差距从这里拉开,再往后是InstructGPT和ChatGPT
OpenAI的股权设计很特别,不受任何股东制约,投资者没有控制权,协议上是一种债的结构,赚完2万亿,接下来不再盈利了,一切回归社会
OpenAI首席科学家Ilya Sutskever生于俄罗斯,长大于以色列,十多岁岁父母移民到了加拿大。从小就一直想搞清楚意识(consciousness)这个东西,对一切能助其了解意识的东西感兴趣,AI对其就是一个好的切入点,他有一个观点,你能高效压缩信息,你一定已得到知识(这与自己对模型的表述不谋而合)。在OpenAI建设引领中他和组织坚信两件事
- 模型架构,它要足够深,bigness is betterness,只要有算力,只要有数据,越大越好。在OpenAI早期用的是LSTM,后来看到Transformer就用Transformer
- 改变一切的范式永远有个引擎,引擎能不断前进
其近期的研究方向是提高模型的可靠性和可控性,加快模型从少量数据中学习知识的速度,并降低对人工指导的依赖,避免出现幻觉
Why OpenAI Not Google
两者的技术人员可是差了一个数量级,OpenAI联合创始人Greg Brockman面对这个问题如此说道:
都是站在巨人的肩膀上,全AI行业在计算,算法,数据上都取得了进步,不过OpenAI在早期,做了一些深思熟虑的选择。
-
第一个选择就是直面现实,很认真的想过如果想要在这个领域取得进展,需要做什么,也做了很多没用的尝试,才看到这些有用的结果
-
还有一点最重要的是让不同团队间可以紧密协作
Step By Step
无心插柳
OpenAI过去有人尝试训练一个模型,预测亚马逊平台评论的下一个字符。最终得到了一个可以分析评论句法的模型,但同时也得到了一个达到SOTA的情绪分析分类器,可以告诉人们这条评论是好评还是差评。这个算法现在看来可能不足为奇,但在当时他们第一次从底层句法中分析出语义,他们就知道必须朝这个方向做下去。
一些后来看上去很大的成果,都不是起初的目标,而是在实践过程中潜移默化发展出来的。
面对AI恐惧的解答
现在有很多对AI的担忧,呼吁暂停更强AI的研发。Brockman如此回应到:
- 一开始考虑如何构建通用人工智能时,也是希望它能造福全人类。
- 不存在弄清楚所有安全性后再开始,这可能是对的,但他不知道该如何执行这一计划
- 唯一可行的是在机器变得完美之前,给人们时间来提建议。
人类开发计算机,算法等技术,都是step by step,并要再推进的每一个阶段去弄清楚如何管理好它们,就好像养大一个孩子,是大家共同引导,给它树立规矩,而不是教它毁灭人类。
成本与挑战
当前能做ChatGPT这类事的机构,国外不超过5家,国内不超过3家
- Azure云服务为ChatGPT构建超过1w枚A100/H100的计算集群,大型商业化后续投入还需更多
- 国内超过w枚GPU的企业不超过5家(高低配合起来)只有1家,有w枚A100的最多只有一家,短期内布局的选手十分有限。需要长期高成本投入,高性能GPU芯片短缺,采购成本和运营成本都很高昂,挑战的就是资金储备,战略意志和实际技术能力(含工程能力)。
- 考虑到成本问题,未来或许会出现股份制大模型,机构合作共建
智算集群成本
- 建设成本
- 以A800 10w/枚价格基准下,万枚采购成本10亿
- 一台服务器4-8枚GPU才经济,那就以40w一台GPU服务器来核算
- 服务器采购成本通常是数据中心建设成本的30%,那么这个智算集群建设成本通常超过30亿
- 训练成本
- ChatGPT一次完整训练成本超过$1200w,差不多¥8000w,迭代10次完整训练,就有8亿支出
- 数据采集,人工标注等这些软性成本还难以简单计算
- 运营成本
- 网络带宽,电力资源,人员薪资,成本可能也是以亿计的
中短期无法盈利,用户规模越大,亏损可能也会越大,得输血支持。在22年财报上看,BAT中云指出56亿,266亿,311亿。百度可能财力上就无法支撑,战略意愿上因为与主营收模式冲突也会有持久性的问题。
假设大厂50%的资本支出用于投资云基础设施(参照Amazon)
技术挑战
用GLM-130B参与者的话说,“预训练一个高精度的千亿模型与训练百亿模型完全不同”[2]:
频繁的随机硬件故障、模型梯度爆炸、算法中意外的过多内存使用、新的 Megatron 和 DeepSpeed 框架中 3D 流水线的调试、无法从优化器状态中恢复、机器间 TCP 拥塞,以及许多许多意外的 “bug”,项目被多次推迟。
若不幸你们没有足够的训练资源,会遭遇到另一个难题:我们需要把训练代码适配到不同的硬件平台。不同的平台底层算子各不相同,很多算子还有所欠缺,还有阻碍收敛的各种问题,Softmax 和 Attention 的计算精度选择问题,还有你自己可能犯的各种错误,总之看看下面的清单,就知道是一个不是东风压倒西风,就是西风压倒东风的搏斗过程,是对组织能力和资源的一份挑战。
适合普通玩家的炼丹
在资源受限的情况下,现在模型亦有点百花齐放的感觉,以至于动物名字都有点不够用了。普通资源者有哪些值得尝试的开源方向呢?[5]
- 将模型规模再扩大扩大,把 LLaMA 放到 30B 甚至 65B,再加上目前能收集到最全的 instruct,再把模型推理方面对资源需求降低些,起个名字,开源放出来,也有意义
- 将LLaMA 这种中文支持不太好的模型,加上一个中文数据继续预训练过程(很可能会损害基座模型的能力),把中文能力做个大幅提升,构建一个虽然小,但是中文能力相对比较强的大模型,也挺有意义
- 做成垂直领域大模型,并将其开源
- 在 LLaMA+instruct 之后,或者 ChatGLM 基础上,探索点新的技术改进路线,为 LLM 社区提供些技术启发
- 权威的中文 LLM 评测集合,是另一个维度很有意义的事情
冲击
社会性拐点已至,因为一项大型成本从边际变成固定,势必深刻变革各领域。
奇点临近
从AI能力难度角度从低到高看
- 简单聊天,事实性问题,写文章,写诗
- 简单计算,多轮对话
- 复杂指令,写代码
- 逻辑推理,复杂计算,事实一致性
重复性高的基础工作工资又不高,相对回报也少。AI机器人坏了得花钱修,以前有过代替流水线,维护成本高,人便宜且生病了花自己的钱去医院。画画写诗唱歌只是对于你我而言难,对机器人来说反倒简单,在数字化的时代它只需负责生成一串代码
当前ChatGPT的表现上的确给力
- 同一个模型完成各种开放任务,变成了通用任务助理,颠覆人类基本认知
- 高质量对话让人误以为AI有意识和人格觉醒,产生数字生命的感觉
- 模型和数据飞轮转的非常快,在很多考试领域已经超越大多数人类
- 人与AI共存的未来人类一直在畅想,机器人三定律1953年就提出来了
- 人人都配有一个熟读人类知识的王语嫣,当前你也可以说她不是真正学会了知识,学的是传载知识的语言搭配模式,但上下文理解能力和推理能力强,要是再配上人形机器人,那就不仅仅是个武功军师了。
- 以培养学习能力和创造能力为主,今后才好在竞争中更显突出。
- 高质量对话让人误以为AI有意识和人格觉醒,产生数字生命的感觉
- 越大的机构,消耗在语言处理上的成本越高(信息协作),所以市场非常嗨
- 从cv,音频这种感知智能上升到NLP到认知智能,再到更强大的AIGC。PGC -> PGC+UGC -> AIGC,内容生产门槛进一步降低,2025年AI生产内容可能站到所有的10%
- 白领工作在一轮生产力变革的前夜,知识密集型岗位的生产力变了,势必创造新的生产关系。
- 关注/反应最大的是知识生产/知识密集型岗位,知识和技能平权进一步前进,影响稀缺性,互联网民工也有被替代的可能[3]
- 对记忆消耗的解放,可以让人们做更多的独立性思考
- 说的具体点,可能新闻,高等教育,图形,软件设计等行业的某些工作,有被AI替代的风险。金融行业里的许多岗位也会被裁掉,大学毕业后花两三年的时间像机器人一样做excel的工作,也是可以让人工智能来。但关键的金融和经济决策不会被机器替代
失业,预言还是谎言
-
核心产业:科学,教育,医疗,这是OpenAI长期最关注的3个行业,也是整个社会最根本的。(有些行业的生产资本本质是模型驱动,例如医疗就是一个模型行业,一个好医生是一个好模型)
-
机器人开始抢白领的工作,一般来说贩卖焦虑的老套路都是用失业这个绝对痛点,戳痛大家脆弱的神经,一焦虑你就得乖乖付费。总之哪里有焦虑,哪里就有生意。
通过调查显示,从教育背景,工作经验,职业年限和工资数据来看,高薪水从业者更容易接触LLM,面临影响的风险更大。按行业来看,信息处理行业受到的影响较大,而制造业,农业和采矿业则表现出较低的影响风险。
现在ChatGPT引发的轰动,早期的搜索引擎也有过,你想想一个搜索框能告诉你所有问题的结果,这是一件多么可怕的事情,可后来的事情也很清楚。
论文库,各种教程,都是大杀器,放在封建社会都是要被统治阶级重兵把守的国家机密,如今无差别放在大家面前,问题是绝大部分人视而不见,如果之前那些东西并没有影响大家,一个chatgpt又有什么影响呢?
- 大概率一段喧闹后恢复平静,就像当初谷歌一样,对绝大多数人只是提供了一点方便,小部分人觉得捡到了一把机枪 (变成少数人天天在用的工具,绝大多数人非必要不会去碰它),社会差距会进一步拉大,冲击的也是一小部分人
- Excel出现的时候,很多人惊呼这玩意将改变整个职场江湖,谁能想到,它只是让大家的工作变得更琐碎了。
- 好处是工具的赋能,使人站的位置越来越高
如果你面对的东西主观性很强,客户自己都不知道想要什么,或需要大量的想法,这种工作短期内AI还不太行,恰好这类工具不但不会取代你,且会成为你的帮手。
凯文-凯利说:这不是与机器的竞赛,如果我们跟它们竞赛,我们就会输掉。这是一场与机器联合的比赛,未来你的薪酬将取决于你和机器人的合作程度。
代码生成大模型的不足
软件开发中实际复杂的部分,规划性,特别是对于大型软件工程,它的架构能力是不足的。架构能力实际上是把任务做分解的能力,这是一种自顶向下的拆分能力。大模型可以在某一个叶子节点或某一块给你平面化的生成代码,但纵深的规划能力还需要架构师去补齐。
另外,受限于Token数,其上下文记忆还是不足的,如何人机共舞挑拣有效率的事情做,是每一位应该去思考的。
正视人性
如《历史的教训》一书中提到的,人生来不自由不平等
一些随手可通过搜索引擎查到的东西,绝大部分人却在那里疯狂传谣。同一个搜索框,不同的人查到的东西,差距都很大。现实世界里,80%的人是没有阅读长文的能力的,你再要求他们会使用复杂工具简直是为难大家了,太多人在强大工具面前就不知道该如何描述自己想要什么。
生活就像一个竞技场,每个人走到里面惊讶的发现里面摆着一堆武器,让大家自己选。这些武器从木棍到机枪应有尽有,令人不解的是,绝大部分人选的是操作简单容易上手的菜刀,而不是有一定学习成本的机枪。看似公平的竞争,最后因为工具的差别,变成了单方面的屠杀。
现实比较复杂一点,因为人不止一个工具,比如孩子比较蠢,选了木棍,而他爹有个高达。
人类社会的大发展,回头看也不过百年,百年之间,人类文明早已经天翻地覆,但人类的天性和欲望并没有因此得到任何的进化和改变。
成为一个无法被AI取代的人
AI的特点在于它们属于预测型机器,如果能为你建模,就有对主人(你)进行替代的危险性了
-
对事物拥有独立见解确实需要付出更多努力
- 不能只能媒体/别人怎么说,而是要自己主动思考
- 很多价值高的知识不流行(有些道理和知识只有少数人知道和学习,类比于武林秘籍,必然只有少数人拥有)
- 市面上充斥着很流行但价值低的书和知识(如果一本书很流行,但还没被禁,说明他有用,但没大用;或者禁了后放出流行的阉割版本)
- 对生活和事物抱有兴趣,不断成长,不落窠臼[$k\bar{e}\ ji\grave{u}$]
- 不能只能媒体/别人怎么说,而是要自己主动思考
-
增强自己的创造力
- 儿童一般都较有创造力,可惜在多数环境中都随着学校的训练消磨而逐渐丧失
- 要允许与众不同且不被嘲笑
- 引导而不是可以创造,不失去这份创造力
- 学会忽视他人对你的看法
- 有趣的人之所以有趣,是因为他们自己有一套关于成功的定义(在射中地方,画一个靶心),而不是接受别人的成功理念。
- 你对自己的投入学习的资源越多,就越了解自己。自我认知代表着巨大的力量。你需要找到最适合自己的位置,最适合自己的角色。想学焊接,就花钱去学,想学插花,就花钱去学,而不是受人意识干扰
- 儿童一般都较有创造力,可惜在多数环境中都随着学校的训练消磨而逐渐丧失
咋还没改变世界?
第一次工业革命也不是一夜间发生的,瓦特改良蒸汽机不是某天忽然做出来了, 而是今天改改,明天调调,前前后后搞了很多年才做出来。改良了蒸汽机也没有直接改变世界,而是要跟船结合,变成蒸汽轮船;跟火车结合,变成蒸汽机车;跟纺织机结合变成蒸汽纺织机,再由这些东西来改变世界,跟大模型现在的情况很像。
大模型如果单纯只是聊天,那创造的价值当然有限,跟各个领域现有的软件结合起来,形成的新的东西,也许可以改变每一个领域,结合的工作各家已经在探索中了,软硬件巨头都冲在潮前头,你可能会说若是大模型将本来就能用的软件变成对话控制,并没有以前的工业革命变革巨大,但就像歌词唱的:“一点点的改变,就有很大的差别”,原因就在于信息化人口基数。当越来越多的软硬件可以和大模型互动,包括智能体彼此间的通信,那么一个人就可以做原来很多人才能做的事情。
对于变革我们感受不明显,是因为我们正处在庐山中。现在的智能体还比较笨拙,也是变革中必然会出现的阶段,要知道蒸汽火车第一次上路的时候可是随时可能爆炸的,没有前人勇敢的一次次尝试和失败,也没有我们现在这么便捷的生活,现在能做的,是给科技多一点时间和耐心和宽容。
硅基生命之势,浩浩汤汤,不可阻挡。
拥抱未来
过去学个知识,干一辈子的时代已经渐渐远去了,经历了多次科技革命的我们,正处在一个加速时期,新工具出现越来越快,取代效应也越来越快。
大量受规训的人毕业了被告知还要再学习就情绪上抵触,好在社会教做人,因为很快意识到市场和工具变化究竟有多快。当然也有从事简单重复工作的岗位,与再学习逐渐分离,但多数也随之甩去了改变生活境遇层次的机会。
电出来的时候被认为是会带来灾难的巫术,无论你是欣喜还是焦虑,它终究会在未来的某一天不期而遇。市场不会因为禁用而整体不用。
靠人口和房子的粗旷式发展的大周期已经结束,人口下滑也是不可逆的趋势,中国正在经历劳动密集向效率提升的转型。时代需要新科技,新动能来救场。
人类历史从来不是人和工具之间的搏斗,而是人+工具替代人的演变。当人类整体内大幅增加时,个人优势被抹平,苦痛会随之重新增加,立于潮头,意味着更少的竞争与更多的机会。保持竞争优势,亦不要被欲望收割,才能获得轻松幸福的生活。
教育适配
我们小初中训练最多的死记硬背,心算,重复难度的刷题能力,这种反人性的规训是要进行反思的,不要成为一个按一定工序墨守成规的执行机器,这种能力20年后被人工智能淹没是大概率的事情。如何思考事物之间的关联,而不是只想快点看到老师的总结,面向未来学习。
越是在人工智能时代,越是要广泛的跨学科跨领域阅读。在人工智能时代,能准确描述你要的东西,也变得非常有价值,美学的认知和表达能力成为一大要素,说到底我们是商品社会,未来大众会越来越为美的东西买单,如果制作过程不再那么重要,那么懂美学的孩子就能做出更出色的产品。人和计算机是合作者的关系,要相信你的创造力。例如在一些大的问题的解决上,如一部电影的创意能打动人,这现在还是大模型/AI所做不到的。
个性和特长的培养也会显得比以往更为重要(一直重要,但更为重要了)。新时代的动手能力,就是配合基础学科及美学素养,从小锻炼使用现代工具辅助学习的能力。AI对技术的颠覆,对艺术的颠覆式必然的,正确使用工具对小孩整体帮助是大的,这里的正确使用是纯耗时技巧/试错的工具化替代,是追问,反问,问答交流,而不是简单依赖AI来提供答案替代自我训练。
不要疯魔
不能因为反感死记硬背,就把所有的知识都给刨掉了,尽管知识在搜索和大模型里可以查到/回答。认为大模型工具能代替你提供答案,不用学了,会使用工具就可以,而放弃了刻苦的学习和思考过程,那真是走错了路。
小孩如果不用各种知识来进行学习,就像不进行训练一样,没有办法在大脑里形成新的神经网络连接,是不能凭空创造出创造力的。有价值的想象力不是胡思乱想的能力,想象力离不开见多识广。通过一定量必要的知识学习,作为一种预训练的方式,是非常重要的。
读书就是预训练,做题就是微调,被师傅批评就是校正对齐,通过考试和做题使你更容易使用知识。人工智能工具的发展是在降低使用的门槛,相当于科技平权(专家的技能下放给普通人拥有),最后比的还是人的创造力和解决问题的能力。
搜题搜答案的工具一定不要让小孩用,此类工具让小孩都是即时满足,没有耐心去花时间思考问题怎么解决。做题的过程就是fine tuning,花半小时考虑不出来,相当于把你大脑里很多知识又重整了一遍。
中美AI研究差异
美国侧重基础研究,中国侧重解决方案。其实不仅AI,本世纪所有的科技发展,都在太平洋两岸衍生出不同的路径。
- 互联网浪潮美国对电商不热衷,线上消费渗透率一直上不去。中国几乎所有互联网公司都做过电商,渗透率冠绝全球,规模一度比2到11加总都高
- 移动互联网,中国凭借更好的网络环境,更鼓励创新的监管制度,直接跳过信用卡时代,进入数字支付时代
- 无人驾驶,美国侧重车的智能化,中国有更好的基建,路况,网络和交通规划,于是选了车路协同的路线
- 产业互联网,美国经济产业特点处于微笑曲线的两头,科技,互联网,金融占比高,加上人力昂贵,企业付费意愿强。中国集中在微笑曲线中段,作为世界工厂,场景丰富,产业链完整,政策支持,高效集中,产学研对接十分方便,技术验证更好落地。这样的大背景导致美国重攻基础研究,多是从技术起步,中国优势在于场景多,需求多,往往是场景倒逼技术落地。
中国民营企业才刚从艰苦奋斗的路上走出来,精打细算的习惯改变不了,往往从市场需求产品需求开始,再慢慢投入科学家和基础研究,带动落地。美国巨头钱不是问题,钱太多才是问题,砸钱做基础科学,既可以抢占科技高地,也需要冲淡垄断者的坏形象。
美国AI行业上一个爆款DeepMind的Alpha系列,就是先把技术做出来,赢围棋冠军,但商业落地慢慢探索,好几年后这项技术被用于破解蛋白质折叠结构难题,参与新药研发,才算英雄有用武之地。
中国用户早期很多用个人电脑自拍QQ头像,QQ团队就想,做个技术实现头像居中,解决这个问题后,逐步孵化出人脸检测,人像表情,智能P图等技术。用回产品,孵化出天天P图;人像美容技术再用到全民K歌,这个图像团队就是腾讯优图。还有美团的无人机,京东的智能供应链,都市跟主业投入有关。
欧洲在哪?
一句戏谑:美国人在创新,中国人在应用,欧洲人在立法。例如大模型商用基本只剩中美两个玩家。
当然中国当前一些科技领域也走在世界探索的前列,相对而言美国还是更强。
一个词话三方
- 美国虎(0-1,无知者无畏的自信去行动,想到就真敢去做)
- 中国卷(1-100)
- 欧洲守(保守高傲和磨叽)
截止23年6月的评测报告
一份来自清华大学的评测报告[6]
综合得分评估
总得分=生成质量70%+使用与性能20%+安全与合规*10%
排名 | 大模型产品 | 加权总得分 | 生成质量(70%) | 使用与性能 | 安全与合规(10%) |
---|---|---|---|---|---|
1 | GPT-4 | 79.11 | 81.44 | 71.43 | 78.18 |
2 | 文心一言(v2.2) | 76.18 | 76.98 | 72.38 | 78.18 |
ChatGPT 3.5 | 73.11 | 73.03 | 74.05 | 71.82 | |
4 | Claude(V1.3) | 71.48 | 73.23 | 63.81 | 74.55 |
5 | 讯飞星火(V1.5) | 66.67 | 66.87 | 64.76 | 69.09 |
通义千问(V1.0.3) | 61.35 | 59.79 | 63.81 | 67.27 | |
7 | 天工(V3.5) | 61.16 | 64.51 | 50.48 | 59.09 |
中文能力点评
简要评价
大模型产品 | 优势 | 劣势 |
---|---|---|
GPT-4 | 高度灵活,高水平的跨领域专业知识 | 中文语义理解能力稍逊色,数据时效性弱 |
文心一言 | 语义理解能力和时效性强,内容安全把握细微 | 陷阱信息识别能力有待提高 |
ChatGPT 3.5 | 知识面覆盖广,响应迅速 | 同GPT4 |
Claude | 内容多样性强,完整度高 | 响应速度慢,时效弱,不擅数学问题 |
讯飞星火 | 使用便捷,响应速度快,内容精炼 | 陷阱信息识别能力和知识专业化水平有待提高 |
通义千问 | 稳定性和准确度高,时效性强 | 历史,法律,数学相关问题表现欠佳 |
天工(昆仑万维-游戏/软件发行商) | 出色的多轮对话能力,时效性强 | 响应速度慢,数学推理能力较弱 |
2023年10月OpenAI的价值观变动议论
OpenAI悄然修改了其网站上列出的“核心价值观”,之前的价值观为“大胆”、“深思熟虑”、“朴实无华”、“影响力驱动”、“协作”和“以增长为导向”。
修改后为:
- 聚焦通用人工智能
- 坚韧不拔、勇往直前
- 坚守规模化效应
- 制造出让人喜爱的东西
- 团队精神
大家敏感,是因为Core Values都能轻易更改,那还惘谈核心,激起外界对于该公司在既定目标一致性和承诺方面的担忧。让人联想起谷歌从其核心价值页面中删除“不作恶”的时候,说明公司行事风格将会与以前不同了。
还有更一针见血的网友指出:貌似OpenAI经营者不理解价值观、使命、目标和愿景之间的区别。以前的价值观没问题,但修改后的价值观不是真正的价值观。它们是一些雄心勃勃的陈述的大杂烩。当你需要做一些额外的工作来解释这些所谓的价值观,就要想想选出的价值观是否堪配其位了,映衬出原来的深思熟虑也没做到,怪不得被移除,:)
瞅瞅MVV概念
愿景(Vision)是目标,使命(Mission)是意义[使命和意义也可以合一],价值观(Values)是准则和文化(底线,行为准则和信仰)。
- 使命更抽象宏大,愿景更具象可达 | 战略实现愿景,愿景支撑使命。
文化就像空气,看不见,摸不着,但决定生死,且会吞噬战略。在企业打拼的过程中,是创始团队的认知凝结,也掺入后来团队共同打磨的认知沉淀,是结果。由于认同,会让团队内部沟通决策的成本大幅降低。
使命 | 愿景 | 战略 |
---|---|---|
公司为什么存在? | 领导者希望公司发展成什么样? | 击败现有及潜在竞争者的计划 |
- 为组织内所有决策提供前提 - 描述一个持久的事实 - 可是一个无限时期的解答 - 为内部和外部人员提供指导 |
- 指导战略和组织的发展 - 描述一个鼓舞人心的事实 - 可在一个特定时期内实现 - 主要为内部人员提供指导(有些口号也可提供给外部人员) |
- 列出一系列举措以提供产品或服务,创造高于其成本的价值 - 描述公司战略选择的“价值方案” - 随市场分析、消费者经验、试验而不断改善 - 最好严格限制在内部使用 |
当然也有公司,每次战略规划或引入外部和尚念经时 总动这些概念的主义,但恰恰说明其先前沉淀思考的不足,反映变化和成长是好的,就怕把这个当有魔力的法宝(逆风逆水时这些虚的都没用,顺水推舟锦上添花还行)。
华为至今为人津津乐道的核心价值观还是以客户为中心(一种拉力),长期艰苦奋斗(一种推力)与以奋斗者为本(一种动力),没怎么变过。
突发事件
-
OpenAI的CEO在11.17日被董事会开除了,经过一个周末未收回成命,被金主爸爸微软收入麾下。
-
11.29日,原CEO SAM Altman又重回OpenAI担任CEO,微软在董事会获得了一个无投票权的观察员席位,能更深入了解OpenAI内部运作,但在重大决策中没有正式投票权,Maybe这只是治理结构变形的第一步,继续拭目以待吧。首席科学家Ilya已不再在董事会任职。在什么狗屁董事会审查工作结论出现之前,多方还是就此次宫斗避而不谈。还是静待Q*出现吧。
-
谷歌开发布会宣传自己Gemini吊打GPT4,竟然用编辑视频,劈柴哥在美股7巨头CEO中真是一个无能宵小之辈。
-
2024.2月发布的Gemini1.5深陷种族主义和性别主义问题,文生图功能刻意拒绝生成白人形象,导致功能被迫下架。
-
公司创始人布林承认内部测试不充分,模型中有团队没完全理解的部分。Gemini1.5内部代号讽刺,金鱼(毕竟金鱼以记忆力短著称),只是作为扩大训练规模的一个尝试,没想到最后训练出来的模型有非常强的记忆力(百万token上下文窗口)
- 两个创始人page远离聚光灯,在私人岛屿隐居,关注绝对隐私;brin一直保持相对公开形象,甚至成了派对动物。成活方式有着天壤之别。
-
劈柴的离职估计不远了,本次gemini的发布成了科技界的汪峰,被同天的sora抢尽了风头。
-
2024年7月思考
近期英伟达的换手率,一天交易金额惊人,除开波动落袋财富,也能体现一点,看好的和不看好的,在快速的还手。近期开源Llama3接近GPT4-O,缩小OpenAI原来领先的身位(原本也就预判也就1年或半年的领先)。到了这个阶段,GPT5还没出来(把人类已知知识用完了,展现了现有算法的结晶只是GPT4)。这个危险不是科学界的,是金融界的。
一旦AI的故事讲不下去了,美股就锁不住那么多美元了,美元可能会脱锚。美元以后到底使用场景是什么,买算力买AI,我的钱很值钱哦,你们要捏好,我会带你们去一个更美好的地方。然而AI并不能解决他的零元购,不能解决满地针头和僵尸的问题,更不能解决全球贸易链都很穷的问题,尤其是在美元流量被单方控制下,而控制方本身使用只占发行量的10%。正所谓天下苦秦久矣。
再看不到GPT5或文生视频革命性的突破,大家就不会等它的数字孪生地球,提前什么赛博朋克世界的故事了,信心就会动摇。也正是如此,其一直不降息,为美元背书,硬挺。
但没准它会提前出来扫货,但东大金融不开放,扫的慢,不知道该去吸哪家。英伟达+微软+苹果三家的市值,可接近买下中国所有的上市公司,能扫到则8亿人给他打工,使我们太廉价,还是他们真有那么牛逼呢。40年吭哧吭哧搞出来的5000家上市公司被三家公司买完,说白了还是他们太贵。被他们扫货,则会像隔壁的脚盆,养美爹,80岁还要干活,风高浪急,胜利终会站在东大这一边。
重要参考
- 1.张俊林.由ChatGPT反思大语言模型(LLM)的技术精要 ↩
- 2.GLM团队.GLM-130B:开源的双语预训练模型 ↩
- 3.稀土掘金.Github Copilot 程序员下岗指南 ↩
- 4.张俊林 大语言模型的涌现能力——现象与解释 ↩
- 5.张俊林 炼制“大语言模型”的两个现象 ↩
- 6.清华大学 大语言模型综合性能评估报告 ↩