大语言模型LLM

ChatGPT催生AI再一春

ChatGPT

GPT:Generative Pre-trained Transformer

科技部长的金句:踢足球都是盘点,射门,但是要做到梅西那么好也不容易

惊喜与惊醒

大语言模型的效果好到令人咋舌,我们距离LLM的认知和发展理念,距离世界最先进的想法,差得有点远

  • Bert出现后1~2年间,国内追赶技术很快,也提出了一些改进模型
  • 分水岭在GPT-3,即为2020年中,体现了LLM应往何处去的发展理念,全球看中的人很少,梯队明显
    • 包括Google在内,对于LLM发展理念的理解,都落后OpenAI一个身位(半年到一年的时间)
    • 国内可能落后2年左右

鹰酱的风格是进化论模式,各个方向上各个公司都搞低成本试探进攻,让企业家去承担试错成本。进化是允许犯错的,甚至是进化不可少的前提

最难的事情 : 方向可行性,已经被蹚出来了(此正是技术最难的一点)

  • 我方堆资源,集中力量办大事的优势可以发挥

  • 商业的竞争,开源的平替也在出现(甚至可能是故意的泄露)

  • 老美限制我们,软件上挡不住,那就硬件上挡

    芯片型号 售价(美元) 售价(人民币)-- 22年汇率还有优势 供应中国情况
    V100 10000 69000
    A800 12000 82800 缺货
    A100 15000 103500 断供
    H100 36500 251820 断供

A800是A100阉割特供版,计算性能相似,数据传输速度降低30%,影响AI集群训练速度和效果,还缺货,一次只能采购数百片

NLP研究范式转变

从深度学习到两阶段训练模型

深度学习期

  • 由大量改进LSTM模型及少量改进的CNN模型作为典型的特征抽取器

  • Sequence to Sequence(或叫encoder-decoder亦可)+Attention作为各种具体任务典型的总体技术框架

在这些技术下,研究目标归纳为如何有效增加模型层深或模型参数容量。就是往encoder-decoder里不断叠加更深的LSTM或CNN层。

受限于有限的训练数据总量(不够匹配模型容量增加)和特征抽取器有限的表达能力(不能吸收数据里蕴含的知识),最终这条路径相较于飞深度学习方法并没有出现碾压式的优势

三元或四元甚至更高阶的模型是不是能覆盖所有语言现象。答案是不行

上下文之间相关性可能跨度非常大,甚至可以从一个段落到另一个段落

两阶段训练大模型

Bert和GPT模型出现后,在学术研究和工业应用角度看,都带来了一个技术飞跃,子领域的技术方法和框架日趋统一

Bert出现一年左右,技术栈就基本全线收敛到此二位上。

图像领域预训练模型(vision transformer)应用到下游任务,带来的效果收益,远不如Bert/GPT应用在NLP下游任务那么显著,要是蹚通了,图像处理的各个子研究领域可能也会逐步消失,直接完成终端任务

带来的影响

中间任务消亡

中文分词,词性标注,命名实体识别(NER),句法分析,指代消解,语义Parser等,这类任务不是解决任务的实际需求,但作为解决任务的中间阶段或辅助阶段存在。而用户其实只关心最终具体任务有没有干好。

通过大量的预训练,Bert/GPT已经把这些中间任务作为语言学特征,吸收到了Transformer参数里,无需对中间过程专门建模,可端到端直接解决最终任务。

在技术发展的早期阶段,很难一步做好有难度的最终任务,科研人员就把难题分而治之

技术路线统一

最终任务分类:NLU+NLG

NLU:文本分类,句子相似性计算,情感倾向判断,意图识别等,都是分类任务。

统一到了Bert为代表的“双向语言模型预训练”+应用fine-tuning的模式

NLG:聊天机器人,翻译,文本摘要,问答系统等

统一到了GPT-2为代表的“自回归语言模型(从左到右单向语言模型)+zero/few shot prompt”的模式

绝大多数人当时都低估了GPT这条路线的潜力,视线中心都聚焦到了Bert模式上。

预训练到通用人工智能

从GPT-3以后,尚在加速演进

ChatGPT

ChatGPT是触发这次范型转换的关键点,在InstructGPT出现前,LLM其实出于过渡期。

ChatGPT最惊艳和最大的贡献是基本实现了让LLM适配人的命令表达方式,给出了很好的解决方案,增加了易用性和用户体验

证明了可以去直接追求理想的LLM模型,未来的技术趋势应是越来越大的LLM模型,增加预训练数据的多样性

  • 预训练模型早期,人们普遍更看好Bert一些

    • fine-tuning方式解决下游任务,Bert>GPT
    • Fine-tuning效果占优的领域是因为领域训练数据量大,从数据安全角度,fine-tuning还没那么快消失,但已经不是潮流了
  • 随着技术发展,目前规模最大的LLM模型,几乎清一色类似GPT-3的模式,背后有一定的必然性

    • NLG表现形式可兼容NLU,反之则不行。分类问题可转换成让LLM生成对应类别字符串,Google的T5模型,形式上就统一了NLU+NLG的外在表现形式。

    • Zero/few shot promot方式做好任务,采取GPT模式

      • 数据是海量的,要吸收知识,需非常多的参数来存储只是,必是巨无霸模型
      • 模型规模巨大,有能力做出及改动这个模型参数的机构必然少
      • 就算把模型开源出来,中小机构和个人也无力部署,更不用说用fine-tuning这种模式去修改模型参数了
      • LLM as Service的模式运行,超大模型一定会走向AGI(人造通用智能)
      • ChatGPT用Instruct取代了prompting,由此带来新的技术范式转换

ChatGPT改变了GPT-3.5什么?

GPT-1学习资料5G,参数1.17亿

GPT-2学习资料40G,参数15亿

GPT-3学习资料45T,参数1750亿

GPT有了海量知识,但回答形式和内容却不受约束,因为它知道的太多了。见到了一个人几辈子都读不完的资料,会随意联想,像一只脑容量超级大的鹦鹉,如何指挥它成了一个目标。

ChatGPT注入了人类偏好知识,什么是好的回答,什么是不好的。如详细回答是好的,带有歧视内容的回答是不好的,人类对回答质量好坏的偏好,用对话模板去矫正其开卷有益时学到的不规范习惯(跟教鹦鹉说话一个道理),通过reward-model反馈给LLM数据,得到一个懂得人话,比较礼貌的LLM。

用人工专门写好的优质对话范例让GPT去接龙

LLM的知识构成

Transformer是足够强大的特征抽取器,尚不需做特别的改进,那它学到了什么?

语言类知识和世界知识

  • 语言类知识是指语法,词性,句法,语言等有助于人类或机器理解的自然语言知识
  • 世界知识指发生在这个世界上的一些真实事件和常识性知识

对于Bert类型的语言模型来说,只用1000w到1亿单词的语料,就能学好句法语义等语言学知识事实类知识要更多的训练数据

随着Transformer模型层深的增加,能学到的知识数据以指数级增加,把模型看作是以模式参数体现的隐式知识图谱,一点也不违和。

如何存取知识

  • 多头注意力(MHA)占了参数总量的1/3,用于计算单词或知识间的相关强度,对全局信息进行集成,建立知识间的联系,大概率不会存储具体的知识点
  • FFN(Feed Forward Network)结构占了剩余2/3,承担主体知识的存储。FFN的输入层其实是某个单词对应的MHA的输出结果Embedding,将整个句子有关的输入上下文集成到一起的Embedding,代表整个输入句子的整体信息
  • Transformer低层对句子表层模式做出反应,高层对语义模式做出反应。也就是低层FFN存储语法,句法等表层知识;中层和高层存储语义及事实概念知识

LLM的规模效应

目前效果最好的LLM模型,参数规模大都超过了千亿(100B),如OpenAI的GPT-3规模175B,Google的LaMDA规模540B,华为盘古模型200B,百度文心260B,随着模型不断增长,会发生什么?

  • 研究证明,越大的LLM模型学习效率越高,学到了更多知识,任务效果更好。多数NLU任务,都是知识密集型任务,近两年都在模型规模增长下获得了极大的效果提升。

  • 模型规模是解锁LLM新能力的关键,出现某种涌现能力带来意想不到的精彩,如chatGPT的推理能力。

    思维链是典型的增强LLM推理能力的技术,流利性也是在规模上得以解决的。

    上下文学习里出现的涌现效应,等价于隐式的微调,但如何有效尚未搞明白

In Context Learning 的涌现能力和模型规模的关系

想出现涌现能力,模型规模大小和具体任务有一定的绑定关系

图表第一行的3位数加法任务,模型只要达到 13B(130亿参数),就可以具备涌现能力,但是对倒数第二行的 Word in Context Benchmark任务而言,目前证明,只有540B 大小的模型才可以做到这点。我们只能说,就In Context Learning而言,如果模型达到 100B, 大多数任务可以具备涌现能力。

把模型做小会影响LLM的涌现能力么

DeepMind 2021年发表的模型 Chinchilla,这个模型目前做各种任务的效果,和 540B大小的PaLM 基本相当。Chinchilla的思路是给更多的数据,但是把模型规模做小[4]

Chinchilla模型大小只有 70B,是Gopher的四分之一,但是付出的代价是训练数据总量,是Gopher的四倍,所以基本思路是通过放大训练数据量,来缩小模型规模

在以后训练模型的时候,可以考虑 先增加训练数据 ,降低模型参数量,把模型做小(保险起见,不应小于70B),先把模型参数利用充分,在这个基础上,再继续增加数据,并推大模型规模。

第二个小模型代表是 Meta 发布的开源模型 LLaMA,它的做法其实很好理解,本质上就是开源的 Chinchilla,它的思路是完全遵照 Chinchilla 来做的,增加训练数据,并把模型规模做小

Transformer的稀疏化

目前规模最大的LLM中,相当比例的模型采取了稀疏结构,如GPT-3,PaLM,好处是它可以极大减少LLM的训练时间和在线推理时间

有研究表明,标准的Dense Transformer在训练和推理时,它本身也是稀疏激活的,既然如此,不如直接迁移到稀疏模型

随着模型越大,稀疏模型带来的收益越明显

人机交互

从In Context Learning到Instruct理解

Zero shot prompt是Instruct的早期叫法,内涵一致,具体做法不同

  • 早期Zero shot prompt实际上就是不知道怎么表达一个任务才对,就换不同的单词或句子,反复尝试好的任务表达方式。这种方式已经被证明是在拟合训练数据的分布
  • Instruct做法则是给定命令表达语句,试图让LLM理解它,尽管表面都是任务的表述,但思路是不同的

In Context Learning和Few shot prompt意思类似,就是给LLM几个示例做范本,然后让LLM解决新问题

  • In Context Learning也可以理解为某项任务的描述(用例子来具象表达任务命令),只是Instruct是一种更抽象的描述形式

LLM用来生成Instruct效果很不错,在一些任务上超过人类的表现,所以Prompt engineer也是一个不长久的职位

  • Fine-tuning和In Context Learning表面看似都提供了一些例子给LLM,但两者有质上的差别
    • Fine-tuning拿这些例子当训练数据,用反向传播去修正LLM的模型参数
    • 但In Context Learning只是拿出例子让LLM看了一眼,并没有根据例子去修正参数,就要求它去预测新例子(正是In Context Learning的神奇之处,尚无清晰的原理解释)

如何增强LLM的推理能力

咱们通常不会因为一个人单靠记忆力强,就说这个人很聪明,还要看他是否有强的推理能力,推理能力是智力水平更佳的标准。强大推理能力也是让用户认可LLM的心理基础。

推理能力的本质是综合运用很多知识,去推导出新的知识或新结论

在LLM推理方面相关的工作和研究,可归为4大类

  • 基于Prompt的方法,通过合适的提示语或文本,更好地激发LLM本身就具有的推理能力,google在这个方面做了大量很有成效的工作

    • 更好的展示出能力的技术方法,直接在问题上追加辅助推理Prompt,在众多领域都很有效
      • 第一阶段在提问的问题上追加“Let’s think step by step”这句提示语,LLM会输出具体的推理过程;第二阶段,在第一阶段的问题后,拼接LLM输出的具体推理过程,并再追加Prompt。如此简单的操作,却可以大幅增加LLM在各项推理任务中的效果,比如在数学推理测试集GSM8K上,加上提示语后,推理准确率直接从原先的10.4%提升到了40.4%,可谓神奇。(猜测预训练数据里面存在大量的此种数据,提示语激发LLM模糊得“回忆”起某些例子的推导步骤)

  • COT

    标准的COT由人工来写推理步骤,而Zero-shot COT大概是通过提示语,激活了记忆中某些包含推理步骤的示例。人工给出的示例,准确性是有保障的,所以自然标准CoT效果会更好。

    最早的COT概念文章发表于22年1月,虽然做法简单,但应用COT后模型推理能力得到了巨大的提升

    意思是让LLM明白一个道理:在推理过程中,步子不要迈的太大,化大问题为小问题,积小胜为大胜

    COT提出不久,很快在22年3月,一种被称为“Self-Consistency”的改进技术继续助力提升准确率,它要求LLM输出多个不同的推理过程和答案,然后用投票的方式选出最佳答案,将GSM8K测试集准确率提高到83%左右。简答的方法往往蕴含着深刻的道理。虽然COT起效仍有黑盒的味道。

  • Least-to-most prompting,应用分治的思想,将一个复杂的推理问题,分解成若干更易解决的子问题,应证了COT的工作模式。要解决Final Q问题,先把原始问题和Prompt交给LLM,让LLM给出最终问题的前置子问题sub Q,然后用原始问题拼接子问题sub Q及答案,再去问LLM最终问题Final Q

  • 在预训练过程中引入程序代码,和文本一起参与训练,这应是OpenAI实践出来的思路

    • 体现出一种通过增强多样性的训练数据,来直接增强推理能力的思路
    • 为何预训练模型可以从代码中获得额外的推理能力,确切原因未知。可能开始只是尝试从文本生成代码,而代码中往往包含很多文本注释,本质上类似于预训练模型做了两种数据的多模态对齐工作
    • 支持越来越多的任务类型,主要是通过增加LLM预训练数据的多样性来达成

算力约束下的最优培养策略

假设用于训练LLM的算力总预算(如多少GPU天)给定,是应多增加数据量,减少模型参数呢,还是说数据量和模型规模同时增加,减少训练步数呢?

OpenAI选择了同时增加训练数据量和模型参数,但采用早停策略来减少训练步数的方案

  • 且优先增加模型参数,然后才是模型数据量
  • 假如算力预算增加了10倍,那么应增加5.5倍的模型参数量,1.8倍的训练数据量,此时模型效果最佳
  • 单调增加模型参数,固定住训练数据量,这个做法也是不对的,限制了模型的潜力

为何是OpenAI

胜在一开始就自我定位比较高,要做出人物无关超大型LLM,以生成一切的方式解决各种实际问题,且应能听懂人类的命令。不受外界干扰态度坚定不移。

  • GPT-1比Bert出来更早,Bert证明了双向语言模型对于很多NLU任务,效果比GPT这种单向语言模型更好,尽管如此,GPT-2也没有切换技术路线,且开始尝试zero/few shot prompt。因效果比Bert+fine-tuning差的比较远,所以大家都没太当回事,甚至不理解它为什么要始终坚持走单向语言模型的路线。
  • GPT-3展示出不错的zero/few shot prompt能力,后面技术差距从这里拉开,再往后是InstructGPT和ChatGPT

OpenAI的股权设计很特别,不受任何股东制约,投资者没有控制权,协议上是一种债的结构,赚完2万亿,接下来不再盈利了,一切回归社会

OpenAI首席科学家Ilya Sutskever生于俄罗斯,长大于以色列,十多岁岁父母移民到了加拿大。从小就一直想搞清楚意识(consciousness)这个东西,对一切能助其了解意识的东西感兴趣,AI对其就是一个好的切入点,他有一个观点,你能高效压缩信息,你一定已得到知识(这与自己对模型的表述不谋而合)。在OpenAI建设引领中他和组织坚信两件事

  1. 模型架构,它要足够深,bigness is betterness,只要有算力,只要有数据,越大越好。在OpenAI早期用的是LSTM,后来看到Transformer就用Transformer
  2. 改变一切的范式永远有个引擎,引擎能不断前进

其近期的研究方向是提高模型的可靠性和可控性,加快模型从少量数据中学习知识的速度,并降低对人工指导的依赖,避免出现幻觉

Why OpenAI Not Google

两者的技术人员可是差了一个数量级,OpenAI联合创始人Greg Brockman面对这个问题如此说道:

都是站在巨人的肩膀上,全AI行业在计算,算法,数据上都取得了进步,不过OpenAI在早期,做了一些深思熟虑的选择。

  • 第一个选择就是直面现实,很认真的想过如果想要在这个领域取得进展,需要做什么,也做了很多没用的尝试,才看到这些有用的结果

  • 还有一点最重要的是让不同团队间可以紧密协作

Step By Step

无心插柳

OpenAI过去有人尝试训练一个模型,预测亚马逊平台评论的下一个字符。最终得到了一个可以分析评论句法的模型,但同时也得到了一个达到SOTA的情绪分析分类器,可以告诉人们这条评论是好评还是差评。这个算法现在看来可能不足为奇,但在当时他们第一次从底层句法中分析出语义,他们就知道必须朝这个方向做下去。

一些后来看上去很大的成果,都不是起初的目标,而是在实践过程中潜移默化发展出来的。

面对AI恐惧的解答

现在有很多对AI的担忧,呼吁暂停更强AI的研发。Brockman如此回应到:

  • 一开始考虑如何构建通用人工智能时,也是希望它能造福全人类。
  • 不存在弄清楚所有安全性后再开始,这可能是对的,但他不知道该如何执行这一计划
  • 唯一可行的是在机器变得完美之前,给人们时间来提建议。

人类开发计算机,算法等技术,都是step by step,并要再推进的每一个阶段去弄清楚如何管理好它们,就好像养大一个孩子,是大家共同引导,给它树立规矩,而不是教它毁灭人类。

成本与挑战

当前能做ChatGPT这类事的机构,国外不超过5家,国内不超过3家

  • Azure云服务为ChatGPT构建超过1w枚A100/H100的计算集群,大型商业化后续投入还需更多
  • 国内超过w枚GPU的企业不超过5家(高低配合起来)只有1家,有w枚A100的最多只有一家,短期内布局的选手十分有限。需要长期高成本投入,高性能GPU芯片短缺,采购成本和运营成本都很高昂,挑战的就是资金储备,战略意志和实际技术能力(含工程能力)。
  • 考虑到成本问题,未来或许会出现股份制大模型,机构合作共建

智算集群成本

  • 建设成本
    • 以A800 10w/枚价格基准下,万枚采购成本10亿
    • 一台服务器4-8枚GPU才经济,那就以40w一台GPU服务器来核算
    • 服务器采购成本通常是数据中心建设成本的30%,那么这个智算集群建设成本通常超过30亿
  • 训练成本
    • ChatGPT一次完整训练成本超过$1200w,差不多¥8000w,迭代10次完整训练,就有8亿支出
    • 数据采集,人工标注等这些软性成本还难以简单计算
  • 运营成本
    • 网络带宽,电力资源,人员薪资,成本可能也是以亿计的

中短期无法盈利,用户规模越大,亏损可能也会越大,得输血支持。在22年财报上看,BAT中云指出56亿,266亿,311亿。百度可能财力上就无法支撑,战略意愿上因为与主营收模式冲突也会有持久性的问题。

假设大厂50%的资本支出用于投资云基础设施(参照Amazon)

技术挑战

用GLM-130B参与者的话说,“预训练一个高精度的千亿模型与训练百亿模型完全不同”[2]

频繁的随机硬件故障、模型梯度爆炸、算法中意外的过多内存使用、新的 Megatron 和 DeepSpeed 框架中 3D 流水线的调试、无法从优化器状态中恢复、机器间 TCP 拥塞,以及许多许多意外的 “bug”,项目被多次推迟。

若不幸你们没有足够的训练资源,会遭遇到另一个难题:我们需要把训练代码适配到不同的硬件平台。不同的平台底层算子各不相同,很多算子还有所欠缺,还有阻碍收敛的各种问题,Softmax 和 Attention 的计算精度选择问题,还有你自己可能犯的各种错误,总之看看下面的清单,就知道是一个不是东风压倒西风,就是西风压倒东风的搏斗过程,是对组织能力和资源的一份挑战。

GLM-130B训练解决的技术问题

适合普通玩家的炼丹

在资源受限的情况下,现在模型亦有点百花齐放的感觉,以至于动物名字都有点不够用了。普通资源者有哪些值得尝试的开源方向呢?[5]

  • 将模型规模再扩大扩大,把 LLaMA 放到 30B 甚至 65B,再加上目前能收集到最全的 instruct,再把模型推理方面对资源需求降低些,起个名字,开源放出来,也有意义
  • 将LLaMA 这种中文支持不太好的模型,加上一个中文数据继续预训练过程(很可能会损害基座模型的能力),把中文能力做个大幅提升,构建一个虽然小,但是中文能力相对比较强的大模型,也挺有意义
  • 做成垂直领域大模型,并将其开源
  • 在 LLaMA+instruct 之后,或者 ChatGLM 基础上,探索点新的技术改进路线,为 LLM 社区提供些技术启发
  • 权威的中文 LLM 评测集合,是另一个维度很有意义的事情

冲击

社会性拐点已至,因为一项大型成本从边际变成固定,势必深刻变革各领域。

奇点临近

从AI能力难度角度从低到高看

  1. 简单聊天,事实性问题,写文章,写诗
  2. 简单计算,多轮对话
  3. 复杂指令,写代码
  4. 逻辑推理,复杂计算,事实一致性

重复性高的基础工作工资又不高,相对回报也少。AI机器人坏了得花钱修,以前有过代替流水线,维护成本高,人便宜且生病了花自己的钱去医院。画画写诗唱歌只是对于你我而言难,对机器人来说反倒简单,在数字化的时代它只需负责生成一串代码

当前ChatGPT的表现上的确给力

  • 同一个模型完成各种开放任务,变成了通用任务助理,颠覆人类基本认知
    • 高质量对话让人误以为AI有意识和人格觉醒,产生数字生命的感觉
      • 模型和数据飞轮转的非常快,在很多考试领域已经超越大多数人类
      • 人与AI共存的未来人类一直在畅想,机器人三定律1953年就提出来了
    • 人人都配有一个熟读人类知识的王语嫣,当前你也可以说她不是真正学会了知识,学的是传载知识的语言搭配模式,但上下文理解能力和推理能力强,要是再配上人形机器人,那就不仅仅是个武功军师了。
    • 以培养学习能力和创造能力为主,今后才好在竞争中更显突出。
  • 越大的机构,消耗在语言处理上的成本越高(信息协作),所以市场非常嗨
    • 从cv,音频这种感知智能上升到NLP到认知智能,再到更强大的AIGC。PGC -> PGC+UGC -> AIGC,内容生产门槛进一步降低,2025年AI生产内容可能站到所有的10%
    • 白领工作在一轮生产力变革的前夜,知识密集型岗位的生产力变了,势必创造新的生产关系。
      • 关注/反应最大的是知识生产/知识密集型岗位,知识和技能平权进一步前进,影响稀缺性,互联网民工也有被替代的可能[3]
      • 对记忆消耗的解放,可以让人们做更多的独立性思考
      • 说的具体点,可能新闻,高等教育,图形,软件设计等行业的某些工作,有被AI替代的风险。金融行业里的许多岗位也会被裁掉,大学毕业后花两三年的时间像机器人一样做excel的工作,也是可以让人工智能来。但关键的金融和经济决策不会被机器替代

失业,预言还是谎言

  • 核心产业:科学,教育,医疗,这是OpenAI长期最关注的3个行业,也是整个社会最根本的。(有些行业的生产资本本质是模型驱动,例如医疗就是一个模型行业,一个好医生是一个好模型)

  • 机器人开始抢白领的工作,一般来说贩卖焦虑的老套路都是用失业这个绝对痛点,戳痛大家脆弱的神经,一焦虑你就得乖乖付费。总之哪里有焦虑,哪里就有生意。

通过调查显示,从教育背景,工作经验,职业年限和工资数据来看,高薪水从业者更容易接触LLM,面临影响的风险更大。按行业来看,信息处理行业受到的影响较大,而制造业,农业和采矿业则表现出较低的影响风险。

卢德分子其实是熟练工人,而不是形象中的蠢货 新世界更贴近科幻片里描绘的二元世界

现在ChatGPT引发的轰动,早期的搜索引擎也有过,你想想一个搜索框能告诉你所有问题的结果,这是一件多么可怕的事情,可后来的事情也很清楚。

论文库,各种教程,都是大杀器,放在封建社会都是要被统治阶级重兵把守的国家机密,如今无差别放在大家面前,问题是绝大部分人视而不见,如果之前那些东西并没有影响大家,一个chatgpt又有什么影响呢?

  • 大概率一段喧闹后恢复平静,就像当初谷歌一样,对绝大多数人只是提供了一点方便,小部分人觉得捡到了一把机枪 (变成少数人天天在用的工具,绝大多数人非必要不会去碰它),社会差距会进一步拉大,冲击的也是一小部分人
  • Excel出现的时候,很多人惊呼这玩意将改变整个职场江湖,谁能想到,它只是让大家的工作变得更琐碎了。
  • 好处是工具的赋能,使人站的位置越来越高

如果你面对的东西主观性很强,客户自己都不知道想要什么,或需要大量的想法,这种工作短期内AI还不太行,恰好这类工具不但不会取代你,且会成为你的帮手。

凯文-凯利说:这不是与机器的竞赛,如果我们跟它们竞赛,我们就会输掉。这是一场与机器联合的比赛,未来你的薪酬将取决于你和机器人的合作程度。

代码生成大模型的不足

软件开发中实际复杂的部分,规划性,特别是对于大型软件工程,它的架构能力是不足的。架构能力实际上是把任务做分解的能力,这是一种自顶向下的拆分能力。大模型可以在某一个叶子节点或某一块给你平面化的生成代码,但纵深的规划能力还需要架构师去补齐。

另外,受限于Token数,其上下文记忆还是不足的,如何人机共舞挑拣有效率的事情做,是每一位应该去思考的。

正视人性

《历史的教训》一书中提到的,人生来不自由不平等

一些随手可通过搜索引擎查到的东西,绝大部分人却在那里疯狂传谣。同一个搜索框,不同的人查到的东西,差距都很大。现实世界里,80%的人是没有阅读长文的能力的,你再要求他们会使用复杂工具简直是为难大家了,太多人在强大工具面前就不知道该如何描述自己想要什么。

生活就像一个竞技场,每个人走到里面惊讶的发现里面摆着一堆武器,让大家自己选。这些武器从木棍到机枪应有尽有,令人不解的是,绝大部分人选的是操作简单容易上手的菜刀,而不是有一定学习成本的机枪。看似公平的竞争,最后因为工具的差别,变成了单方面的屠杀

现实比较复杂一点,因为人不止一个工具,比如孩子比较蠢,选了木棍,而他爹有个高达。

人类社会的大发展,回头看也不过百年,百年之间,人类文明早已经天翻地覆,但人类的天性和欲望并没有因此得到任何的进化和改变。

成为一个无法被AI取代的人

AI的特点在于它们属于预测型机器,如果能为你建模,就有对主人(你)进行替代的危险性了

  • 对事物拥有独立见解确实需要付出更多努力

    • 不能只能媒体/别人怎么说,而是要自己主动思考
      • 很多价值高的知识不流行(有些道理和知识只有少数人知道和学习,类比于武林秘籍,必然只有少数人拥有)
      • 市面上充斥着很流行但价值低的书和知识(如果一本书很流行,但还没被禁,说明他有用,但没大用;或者禁了后放出流行的阉割版本)
    • 对生活和事物抱有兴趣,不断成长,不落窠臼[$k\bar{e}\ ji\grave{u}$]
  • 增强自己的创造力

    • 儿童一般都较有创造力,可惜在多数环境中都随着学校的训练消磨而逐渐丧失
      • 要允许与众不同且不被嘲笑
      • 引导而不是可以创造,不失去这份创造力
    • 学会忽视他人对你的看法
      • 有趣的人之所以有趣,是因为他们自己有一套关于成功的定义(在射中地方,画一个靶心),而不是接受别人的成功理念。
      • 你对自己的投入学习的资源越多,就越了解自己。自我认知代表着巨大的力量。你需要找到最适合自己的位置,最适合自己的角色。想学焊接,就花钱去学,想学插花,就花钱去学,而不是受人意识干扰

咋还没改变世界?

第一次工业革命也不是一夜间发生的,瓦特改良蒸汽机不是某天忽然做出来了, 而是今天改改,明天调调,前前后后搞了很多年才做出来。改良了蒸汽机也没有直接改变世界,而是要跟船结合,变成蒸汽轮船;跟火车结合,变成蒸汽机车;跟纺织机结合变成蒸汽纺织机,再由这些东西来改变世界,跟大模型现在的情况很像。

大模型如果单纯只是聊天,那创造的价值当然有限,跟各个领域现有的软件结合起来,形成的新的东西,也许可以改变每一个领域,结合的工作各家已经在探索中了,软硬件巨头都冲在潮前头,你可能会说若是大模型将本来就能用的软件变成对话控制,并没有以前的工业革命变革巨大,但就像歌词唱的:“一点点的改变,就有很大的差别”,原因就在于信息化人口基数。当越来越多的软硬件可以和大模型互动,包括智能体彼此间的通信,那么一个人就可以做原来很多人才能做的事情。

对于变革我们感受不明显,是因为我们正处在庐山中。现在的智能体还比较笨拙,也是变革中必然会出现的阶段,要知道蒸汽火车第一次上路的时候可是随时可能爆炸的,没有前人勇敢的一次次尝试和失败,也没有我们现在这么便捷的生活,现在能做的,是给科技多一点时间和耐心和宽容。

硅基生命之势,浩浩汤汤,不可阻挡。

拥抱未来

过去学个知识,干一辈子的时代已经渐渐远去了,经历了多次科技革命的我们,正处在一个加速时期,新工具出现越来越快,取代效应也越来越快。

大量受规训的人毕业了被告知还要再学习就情绪上抵触,好在社会教做人,因为很快意识到市场和工具变化究竟有多快。当然也有从事简单重复工作的岗位,与再学习逐渐分离,但多数也随之甩去了改变生活境遇层次的机会。

电出来的时候被认为是会带来灾难的巫术,无论你是欣喜还是焦虑,它终究会在未来的某一天不期而遇。市场不会因为禁用而整体不用。

靠人口和房子的粗旷式发展的大周期已经结束,人口下滑也是不可逆的趋势,中国正在经历劳动密集向效率提升的转型。时代需要新科技,新动能来救场。

人类历史从来不是人和工具之间的搏斗,而是人+工具替代人的演变。当人类整体内大幅增加时,个人优势被抹平,苦痛会随之重新增加,立于潮头,意味着更少的竞争与更多的机会。保持竞争优势,亦不要被欲望收割,才能获得轻松幸福的生活。

教育适配

我们小初中训练最多的死记硬背,心算,重复难度的刷题能力,这种反人性的规训是要进行反思的,不要成为一个按一定工序墨守成规的执行机器,这种能力20年后被人工智能淹没是大概率的事情。如何思考事物之间的关联,而不是只想快点看到老师的总结,面向未来学习。

越是在人工智能时代,越是要广泛的跨学科跨领域阅读。在人工智能时代,能准确描述你要的东西,也变得非常有价值,美学的认知和表达能力成为一大要素,说到底我们是商品社会,未来大众会越来越为美的东西买单,如果制作过程不再那么重要,那么懂美学的孩子就能做出更出色的产品。人和计算机是合作者的关系,要相信你的创造力。例如在一些大的问题的解决上,如一部电影的创意能打动人,这现在还是大模型/AI所做不到的。

个性和特长的培养也会显得比以往更为重要(一直重要,但更为重要了)。新时代的动手能力,就是配合基础学科及美学素养,从小锻炼使用现代工具辅助学习的能力。AI对技术的颠覆,对艺术的颠覆式必然的,正确使用工具对小孩整体帮助是大的,这里的正确使用是纯耗时技巧/试错的工具化替代,是追问,反问,问答交流,而不是简单依赖AI来提供答案替代自我训练

不要疯魔

不能因为反感死记硬背,就把所有的知识都给刨掉了,尽管知识在搜索和大模型里可以查到/回答。认为大模型工具能代替你提供答案,不用学了,会使用工具就可以,而放弃了刻苦的学习和思考过程,那真是走错了路。

小孩如果不用各种知识来进行学习,就像不进行训练一样,没有办法在大脑里形成新的神经网络连接,是不能凭空创造出创造力的。有价值的想象力不是胡思乱想的能力,想象力离不开见多识广。通过一定量必要的知识学习,作为一种预训练的方式,是非常重要的。

读书就是预训练,做题就是微调,被师傅批评就是校正对齐,通过考试和做题使你更容易使用知识。人工智能工具的发展是在降低使用的门槛,相当于科技平权(专家的技能下放给普通人拥有),最后比的还是人的创造力和解决问题的能力。

搜题搜答案的工具一定不要让小孩用,此类工具让小孩都是即时满足,没有耐心去花时间思考问题怎么解决。做题的过程就是fine tuning,花半小时考虑不出来,相当于把你大脑里很多知识又重整了一遍

中美AI研究差异

美国侧重基础研究,中国侧重解决方案。其实不仅AI,本世纪所有的科技发展,都在太平洋两岸衍生出不同的路径。

  • 互联网浪潮美国对电商不热衷,线上消费渗透率一直上不去。中国几乎所有互联网公司都做过电商,渗透率冠绝全球,规模一度比2到11加总都高
  • 移动互联网,中国凭借更好的网络环境,更鼓励创新的监管制度,直接跳过信用卡时代,进入数字支付时代
  • 无人驾驶,美国侧重车的智能化,中国有更好的基建,路况,网络和交通规划,于是选了车路协同的路线
  • 产业互联网,美国经济产业特点处于微笑曲线的两头,科技,互联网,金融占比高,加上人力昂贵,企业付费意愿强。中国集中在微笑曲线中段,作为世界工厂,场景丰富,产业链完整,政策支持,高效集中,产学研对接十分方便,技术验证更好落地。这样的大背景导致美国重攻基础研究,多是从技术起步,中国优势在于场景多,需求多,往往是场景倒逼技术落地

中国民营企业才刚从艰苦奋斗的路上走出来,精打细算的习惯改变不了,往往从市场需求产品需求开始,再慢慢投入科学家和基础研究,带动落地美国巨头钱不是问题,钱太多才是问题,砸钱做基础科学,既可以抢占科技高地,也需要冲淡垄断者的坏形象。

美国AI行业上一个爆款DeepMind的Alpha系列,就是先把技术做出来,赢围棋冠军,但商业落地慢慢探索,好几年后这项技术被用于破解蛋白质折叠结构难题,参与新药研发,才算英雄有用武之地。

中国用户早期很多用个人电脑自拍QQ头像,QQ团队就想,做个技术实现头像居中,解决这个问题后,逐步孵化出人脸检测,人像表情,智能P图等技术。用回产品,孵化出天天P图;人像美容技术再用到全民K歌,这个图像团队就是腾讯优图。还有美团的无人机,京东的智能供应链,都市跟主业投入有关。

欧洲在哪?

一句戏谑:美国人在创新,中国人在应用,欧洲人在立法。例如大模型商用基本只剩中美两个玩家。

当然中国当前一些科技领域也走在世界探索的前列,相对而言美国还是更强。

一个词话三方

  • 美国(0-1,无知者无畏的自信去行动,想到就真敢去做)
  • 中国(1-100)
  • 欧洲(保守高傲和磨叽)

截止23年6月的评测报告

一份来自清华大学的评测报告[6]

综合得分评估

总得分=生成质量70%+使用与性能20%+安全与合规*10%

排名 大模型产品 加权总得分 生成质量(70%) 使用与性能 安全与合规(10%)
1 GPT-4 79.11 81.44 71.43 78.18
2 文心一言(v2.2) 76.18 76.98 72.38 78.18
ChatGPT 3.5 73.11 73.03 74.05 71.82
4 Claude(V1.3) 71.48 73.23 63.81 74.55
5 讯飞星火(V1.5) 66.67 66.87 64.76 69.09
通义千问(V1.0.3) 61.35 59.79 63.81 67.27
7 天工(V3.5) 61.16 64.51 50.48 59.09

中文能力点评

大模型中文理解排名

简要评价

大模型产品 优势 劣势
GPT-4 高度灵活,高水平的跨领域专业知识 中文语义理解能力稍逊色,数据时效性弱
文心一言 语义理解能力和时效性强,内容安全把握细微 陷阱信息识别能力有待提高
ChatGPT 3.5 知识面覆盖广,响应迅速 同GPT4
Claude 内容多样性强,完整度高 响应速度慢,时效弱,不擅数学问题
讯飞星火 使用便捷,响应速度快,内容精炼 陷阱信息识别能力和知识专业化水平有待提高
通义千问 稳定性和准确度高,时效性强 历史,法律,数学相关问题表现欠佳
天工(昆仑万维-游戏/软件发行商) 出色的多轮对话能力,时效性强 响应速度慢,数学推理能力较弱

2023年10月OpenAI的价值观变动议论

OpenAI悄然修改了其网站上列出的“核心价值观”,之前的价值观为“大胆”、“深思熟虑”、“朴实无华”、“影响力驱动”、“协作”和“以增长为导向”。

修改后为:

  • 聚焦通用人工智能
  • 坚韧不拔、勇往直前
  • 坚守规模化效应
  • 制造出让人喜爱的东西
  • 团队精神

大家敏感,是因为Core Values都能轻易更改,那还惘谈核心,激起外界对于该公司在既定目标一致性和承诺方面的担忧。让人联想起谷歌从其核心价值页面中删除“不作恶”的时候,说明公司行事风格将会与以前不同了。

还有更一针见血的网友指出:貌似OpenAI经营者不理解价值观使命目标愿景之间的区别。以前的价值观没问题,但修改后的价值观不是真正的价值观。它们是一些雄心勃勃的陈述的大杂烩。当你需要做一些额外的工作来解释这些所谓的价值观,就要想想选出的价值观是否堪配其位了,映衬出原来的深思熟虑也没做到,怪不得被移除,:)

瞅瞅MVV概念

  • 愿景(Vision)是目标,使命(Mission)是意义[使命和意义也可以合一],价值观(Values)是准则和文化(底线,行为准则和信仰)。

    • 使命更抽象宏大,愿景更具象可达 | 战略实现愿景,愿景支撑使命。
  • 文化就像空气,看不见,摸不着,但决定生死,且会吞噬战略。在企业打拼的过程中,是创始团队的认知凝结,也掺入后来团队共同打磨的认知沉淀,是结果。由于认同,会让团队内部沟通决策的成本大幅降低。

使命 愿景 战略
公司为什么存在? 领导者希望公司发展成什么样? 击败现有及潜在竞争者的计划
- 为组织内所有决策提供前提
- 描述一个持久的事实
- 可是一个无限时期的解答
- 为内部和外部人员提供指导
- 指导战略和组织的发展
- 描述一个鼓舞人心的事实
- 可在一个特定时期内实现
- 主要为内部人员提供指导(有些口号也可提供给外部人员)
- 列出一系列举措以提供产品或服务,创造高于其成本的价值
- 描述公司战略选择的“价值方案”
- 随市场分析、消费者经验、试验而不断改善
- 最好严格限制在内部使用

当然也有公司,每次战略规划或引入外部和尚念经时 总动这些概念的主义,但恰恰说明其先前沉淀思考的不足,反映变化和成长是好的,就怕把这个当有魔力的法宝(逆风逆水时这些虚的都没用,顺水推舟锦上添花还行)。

华为至今为人津津乐道的核心价值观还是以客户为中心(一种拉力),长期艰苦奋斗(一种推力)与以奋斗者为本(一种动力),没怎么变过。

突发事件

  • OpenAI的CEO在11.17日被董事会开除了,经过一个周末未收回成命,被金主爸爸微软收入麾下。

  • 11.29日,原CEO SAM Altman又重回OpenAI担任CEO,微软在董事会获得了一个无投票权的观察员席位,能更深入了解OpenAI内部运作,但在重大决策中没有正式投票权,Maybe这只是治理结构变形的第一步,继续拭目以待吧。首席科学家Ilya已不再在董事会任职。在什么狗屁董事会审查工作结论出现之前,多方还是就此次宫斗避而不谈。还是静待Q*出现吧。

  • 谷歌开发布会宣传自己Gemini吊打GPT4,竟然用编辑视频,劈柴哥在美股7巨头CEO中真是一个无能宵小之辈。

    • 2024.2月发布的Gemini1.5深陷种族主义和性别主义问题,文生图功能刻意拒绝生成白人形象,导致功能被迫下架。

    • 公司创始人布林承认内部测试不充分,模型中有团队没完全理解的部分。Gemini1.5内部代号讽刺,金鱼(毕竟金鱼以记忆力短著称),只是作为扩大训练规模的一个尝试,没想到最后训练出来的模型有非常强的记忆力(百万token上下文窗口)

      • 两个创始人page远离聚光灯,在私人岛屿隐居,关注绝对隐私;brin一直保持相对公开形象,甚至成了派对动物。成活方式有着天壤之别。
    • 劈柴的离职估计不远了,本次gemini的发布成了科技界的汪峰,被同天的sora抢尽了风头。

2024年7月思考

近期英伟达的换手率,一天交易金额惊人,除开波动落袋财富,也能体现一点,看好的和不看好的,在快速的还手。近期开源Llama3接近GPT4-O,缩小OpenAI原来领先的身位(原本也就预判也就1年或半年的领先)。到了这个阶段,GPT5还没出来(把人类已知知识用完了,展现了现有算法的结晶只是GPT4)。这个危险不是科学界的,是金融界的。

一旦AI的故事讲不下去了,美股就锁不住那么多美元了,美元可能会脱锚。美元以后到底使用场景是什么,买算力买AI,我的钱很值钱哦,你们要捏好,我会带你们去一个更美好的地方。然而AI并不能解决他的零元购,不能解决满地针头和僵尸的问题,更不能解决全球贸易链都很穷的问题,尤其是在美元流量被单方控制下,而控制方本身使用只占发行量的10%。正所谓天下苦秦久矣。

再看不到GPT5或文生视频革命性的突破,大家就不会等它的数字孪生地球,提前什么赛博朋克世界的故事了,信心就会动摇。也正是如此,其一直不降息,为美元背书,硬挺。

但没准它会提前出来扫货,但东大金融不开放,扫的慢,不知道该去吸哪家。英伟达+微软+苹果三家的市值,可接近买下中国所有的上市公司,能扫到则8亿人给他打工,使我们太廉价,还是他们真有那么牛逼呢。40年吭哧吭哧搞出来的5000家上市公司被三家公司买完,说白了还是他们太贵。被他们扫货,则会像隔壁的脚盆,养美爹,80岁还要干活,风高浪急,胜利终会站在东大这一边。

重要参考