大语言模型LLM

ChatGPT催生AI再一春

ChatGPT

GPT:Generative Pre-trained Transformer

科技部长的金句:踢足球都是盘点,射门,但是要做到梅西那么好也不容易

惊喜与惊醒

大语言模型的效果好到令人咋舌,我们距离LLM的认知和发展理念,距离世界最先进的想法,差得有点远

  • Bert出现后1~2年间,国内追赶技术很快,也提出了一些改进模型
  • 分水岭在GPT-3,即为2020年中,体现了LLM应往何处去的发展理念,全球看中的人很少,梯队明显
    • 包括Google在内,对于LLM发展理念的理解,都落后OpenAI一个身位(半年到一年的时间)
    • 国内可能落后2年左右

鹰酱的风格是进化论模式,各个方向上各个公司都搞低成本试探进攻,让企业家去承担试错成本。进化是允许犯错的,甚至是进化不可少的前提

最难的事情 : 方向可行性,已经被蹚出来了(此正是技术最难的一点)

  • 我方堆资源,集中力量办大事的优势可以发挥

  • 商业的竞争,开源的平替也在出现(甚至可能是故意的泄露)

  • 老美限制我们,软件上挡不住,那就硬件上挡

    芯片型号 售价(美元) 售价(人民币)-- 22年汇率还有优势 供应中国情况
    V100 10000 69000
    A800 12000 82800 缺货
    A100 15000 103500 断供
    H100 36500 251820 断供

A800是A100阉割特供版,计算性能相似,数据传输速度降低30%,影响AI集群训练速度和效果,还缺货,一次只能采购数百片

NLP研究范式转变

从深度学习到两阶段训练模型

深度学习期

  • 由大量改进LSTM模型及少量改进的CNN模型作为典型的特征抽取器

  • Sequence to Sequence(或叫encoder-decoder亦可)+Attention作为各种具体任务典型的总体技术框架

在这些技术下,研究目标归纳为如何有效增加模型层深或模型参数容量。就是往encoder-decoder里不断叠加更深的LSTM或CNN层。

受限于有限的训练数据总量(不够匹配模型容量增加)和特征抽取器有限的表达能力(不能吸收数据里蕴含的知识),最终这条路径相较于飞深度学习方法并没有出现碾压式的优势

三元或四元甚至更高阶的模型是不是能覆盖所有语言现象。答案是不行

上下文之间相关性可能跨度非常大,甚至可以从一个段落到另一个段落

两阶段训练大模型

Bert和GPT模型出现后,在学术研究和工业应用角度看,都带来了一个技术飞跃,子领域的技术方法和框架日趋统一

Bert出现一年左右,技术栈就基本全线收敛到此二位上。

图像领域预训练模型(vision transformer)应用到下游任务,带来的效果收益,远不如Bert/GPT应用在NLP下游任务那么显著,要是蹚通了,图像处理的各个子研究领域可能也会逐步消失,直接完成终端任务

带来的影响

中间任务消亡

中文分词,词性标注,命名实体识别(NER),句法分析,指代消解,语义Parser等,这类任务不是解决任务的实际需求,但作为解决任务的中间阶段或辅助阶段存在。而用户其实只关心最终具体任务有没有干好。

通过大量的预训练,Bert/GPT已经把这些中间任务作为语言学特征,吸收到了Transformer参数里,无需对中间过程专门建模,可端到端直接解决最终任务。

在技术发展的早期阶段,很难一步做好有难度的最终任务,科研人员就把难题分而治之

技术路线统一

最终任务分类:NLU+NLG

NLU:文本分类,句子相似性计算,情感倾向判断,意图识别等,都是分类任务。

统一到了Bert为代表的“双向语言模型预训练”+应用fine-tuning的模式

NLG:聊天机器人,翻译,文本摘要,问答系统等

统一到了GPT-2为代表的“自回归语言模型(从左到右单向语言模型)+zero/few shot prompt”的模式

绝大多数人当时都低估了GPT这条路线的潜力,视线中心都聚焦到了Bert模式上。

预训练到通用人工智能

从GPT-3以后,尚在加速演进

ChatGPT

ChatGPT是触发这次范型转换的关键点,在InstructGPT出现前,LLM其实出于过渡期。

ChatGPT最惊艳和最大的贡献是基本实现了让LLM适配人的命令表达方式,给出了很好的解决方案,增加了易用性和用户体验

证明了可以去直接追求理想的LLM模型,未来的技术趋势应是越来越大的LLM模型,增加预训练数据的多样性

  • 预训练模型早期,人们普遍更看好Bert一些

    • fine-tuning方式解决下游任务,Bert>GPT
    • Fine-tuning效果占优的领域是因为领域训练数据量大,从数据安全角度,fine-tuning还没那么快消失,但已经不是潮流了
  • 随着技术发展,目前规模最大的LLM模型,几乎清一色类似GPT-3的模式,背后有一定的必然性

    • NLG表现形式可兼容NLU,反之则不行。分类问题可转换成让LLM生成对应类别字符串,Google的T5模型,形式上就统一了NLU+NLG的外在表现形式。

    • Zero/few shot promot方式做好任务,采取GPT模式

      • 数据是海量的,要吸收知识,需非常多的参数来存储只是,必是巨无霸模型
      • 模型规模巨大,有能力做出及改动这个模型参数的机构必然少
      • 就算把模型开源出来,中小机构和个人也无力部署,更不用说用fine-tuning这种模式去修改模型参数了
      • LLM as Service的模式运行,超大模型一定会走向AGI(人造通用智能)
      • ChatGPT用Instruct取代了prompting,由此带来新的技术范式转换

ChatGPT改变了GPT-3.5什么?

GPT-1学习资料5G,参数1.17亿

GPT-2学习资料40G,参数15亿

GPT-3学习资料45T,参数1750亿

GPT有了海量知识,但回答形式和内容却不受约束,因为它知道的太多了。见到了一个人几辈子都读不完的资料,会随意联想,像一只脑容量超级大的鹦鹉,如何指挥它成了一个目标。

ChatGPT注入了人类偏好知识,什么是好的回答,什么是不好的。如详细回答是好的,带有歧视内容的回答是不好的,人类对回答质量好坏的偏好,用对话模板去矫正其开卷有益时学到的不规范习惯(跟教鹦鹉说话一个道理),通过reward-model反馈给LLM数据,得到一个懂得人话,比较礼貌的LLM。

用人工专门写好的优质对话范例让GPT去接龙

LLM的知识构成

Transformer是足够强大的特征抽取器,尚不需做特别的改进,那它学到了什么?

语言类知识和世界知识

  • 语言类知识是指语法,词性,句法,语言等有助于人类或机器理解的自然语言知识
  • 世界知识指发生在这个世界上的一些真实事件和常识性知识

对于Bert类型的语言模型来说,只用1000w到1亿单词的语料,就能学好句法语义等语言学知识事实类知识要更多的训练数据

随着Transformer模型层深的增加,能学到的知识数据以指数级增加,把模型看作是以模式参数体现的隐式知识图谱,一点也不违和。

如何存取知识

  • 多头注意力(MHA)占了参数总量的1/3,用于计算单词或知识间的相关强度,对全局信息进行集成,建立知识间的联系,大概率不会存储具体的知识点
  • FFN(Feed Forward Network)结构占了剩余2/3,承担主体知识的存储。FFN的输入层其实是某个单词对应的MHA的输出结果Embedding,将整个句子有关的输入上下文集成到一起的Embedding,代表整个输入句子的整体信息
  • Transformer低层对句子表层模式做出反应,高层对语义模式做出反应。也就是低层FFN存储语法,句法等表层知识;中层和高层存储语义及事实概念知识

LLM的规模效应

目前效果最好的LLM模型,参数规模大都超过了千亿(100B),如OpenAI的GPT-3规模175B,Google的LaMDA规模540B,华为盘古模型200B,百度文心260B,随着模型不断增长,会发生什么?

  • 研究证明,越大的LLM模型学习效率越高,学到了更多知识,任务效果更好。多数NLU任务,都是知识密集型任务,近两年都在模型规模增长下获得了极大的效果提升。

  • 模型规模是解锁LLM新能力的关键,出现某种涌现能力带来意想不到的精彩,如chatGPT的推理能力。

    思维链是典型的增强LLM推理能力的技术,流利性也是在规模上得以解决的。

    上下文学习里出现的涌现效应,等价于隐式的微调,但如何有效尚未搞明白

In Context Learning 的涌现能力和模型规模的关系

想出现涌现能力,模型规模大小和具体任务有一定的绑定关系

图表第一行的3位数加法任务,模型只要达到 13B(130亿参数),就可以具备涌现能力,但是对倒数第二行的 Word in Context Benchmark任务而言,目前证明,只有540B 大小的模型才可以做到这点。我们只能说,就In Context Learning而言,如果模型达到 100B, 大多数任务可以具备涌现能力。

把模型做小会影响LLM的涌现能力么

DeepMind 2021年发表的模型 Chinchilla,这个模型目前做各种任务的效果,和 540B大小的PaLM 基本相当。Chinchilla的思路是给更多的数据,但是把模型规模做小[4]

Chinchilla模型大小只有 70B,是Gopher的四分之一,但是付出的代价是训练数据总量,是Gopher的四倍,所以基本思路是通过放大训练数据量,来缩小模型规模

在以后训练模型的时候,可以考虑 先增加训练数据 ,降低模型参数量,把模型做小(保险起见,不应小于70B),先把模型参数利用充分,在这个基础上,再继续增加数据,并推大模型规模。

第二个小模型代表是 Meta 发布的开源模型 LLaMA,它的做法其实很好理解,本质上就是开源的 Chinchilla,它的思路是完全遵照 Chinchilla 来做的,增加训练数据,并把模型规模做小

Transformer的稀疏化

目前规模最大的LLM中,相当比例的模型采取了稀疏结构,如GPT-3,PaLM,好处是它可以极大减少LLM的训练时间和在线推理时间

有研究表明,标准的Dense Transformer在训练和推理时,它本身也是稀疏激活的,既然如此,不如直接迁移到稀疏模型

随着模型越大,稀疏模型带来的收益越明显

人机交互

从In Context Learning到Instruct理解

Zero shot prompt是Instruct的早期叫法,内涵一致,具体做法不同

  • 早期Zero shot prompt实际上就是不知道怎么表达一个任务才对,就换不同的单词或句子,反复尝试好的任务表达方式。这种方式已经被证明是在拟合训练数据的分布
  • Instruct做法则是给定命令表达语句,试图让LLM理解它,尽管表面都是任务的表述,但思路是不同的

In Context Learning和Few shot prompt意思类似,就是给LLM几个示例做范本,然后让LLM解决新问题

  • In Context Learning也可以理解为某项任务的描述(用例子来具象表达任务命令),只是Instruct是一种更抽象的描述形式

LLM用来生成Instruct效果很不错,在一些任务上超过人类的表现,所以Prompt engineer也是一个不长久的职位

  • Fine-tuning和In Context Learning表面看似都提供了一些例子给LLM,但两者有质上的差别
    • Fine-tuning拿这些例子当训练数据,用反向传播去修正LLM的模型参数
    • 但In Context Learning只是拿出例子让LLM看了一眼,并没有根据例子去修正参数,就要求它去预测新例子(正是In Context Learning的神奇之处,尚无清晰的原理解释)

如何增强LLM的推理能力

咱们通常不会因为一个人单靠记忆力强,就说这个人很聪明,还要看他是否有强的推理能力,推理能力是智力水平更佳的标准。强大推理能力也是让用户认可LLM的心理基础。

推理能力的本质是综合运用很多知识,去推导出新的知识或新结论

在LLM推理方面相关的工作和研究,可归为4大类

  • 基于Prompt的方法,通过合适的提示语或文本,更好地激发LLM本身就具有的推理能力,google在这个方面做了大量很有成效的工作

    • 更好的展示出能力的技术方法,直接在问题上追加辅助推理Prompt,在众多领域都很有效
      • 第一阶段在提问的问题上追加“Let’s think step by step”这句提示语,LLM会输出具体的推理过程;第二阶段,在第一阶段的问题后,拼接LLM输出的具体推理过程,并再追加Prompt。如此简单的操作,却可以大幅增加LLM在各项推理任务中的效果,比如在数学推理测试集GSM8K上,加上提示语后,推理准确率直接从原先的10.4%提升到了40.4%,可谓神奇。(猜测预训练数据里面存在大量的此种数据,提示语激发LLM模糊得“回忆”起某些例子的推导步骤)

  • COT

    标准的COT由人工来写推理步骤,而Zero-shot COT大概是通过提示语,激活了记忆中某些包含推理步骤的示例。人工给出的示例,准确性是有保障的,所以自然标准CoT效果会更好。

    最早的COT概念文章发表于22年1月,虽然做法简单,但应用COT后模型推理能力得到了巨大的提升

    意思是让LLM明白一个道理:在推理过程中,步子不要迈的太大,化大问题为小问题,积小胜为大胜

    COT提出不久,很快在22年3月,一种被称为“Self-Consistency”的改进技术继续助力提升准确率,它要求LLM输出多个不同的推理过程和答案,然后用投票的方式选出最佳答案,将GSM8K测试集准确率提高到83%左右。简答的方法往往蕴含着深刻的道理。虽然COT起效仍有黑盒的味道。

  • Least-to-most prompting,应用分治的思想,将一个复杂的推理问题,分解成若干更易解决的子问题,应证了COT的工作模式。要解决Final Q问题,先把原始问题和Prompt交给LLM,让LLM给出最终问题的前置子问题sub Q,然后用原始问题拼接子问题sub Q及答案,再去问LLM最终问题Final Q

  • 在预训练过程中引入程序代码,和文本一起参与训练,这应是OpenAI实践出来的思路

    • 体现出一种通过增强多样性的训练数据,来直接增强推理能力的思路
    • 为何预训练模型可以从代码中获得额外的推理能力,确切原因未知。可能开始只是尝试从文本生成代码,而代码中往往包含很多文本注释,本质上类似于预训练模型做了两种数据的多模态对齐工作
    • 支持越来越多的任务类型,主要是通过增加LLM预训练数据的多样性来达成

算力约束下的最优培养策略

假设用于训练LLM的算力总预算(如多少GPU天)给定,是应多增加数据量,减少模型参数呢,还是说数据量和模型规模同时增加,减少训练步数呢?

OpenAI选择了同时增加训练数据量和模型参数,但采用早停策略来减少训练步数的方案

  • 且优先增加模型参数,然后才是模型数据量
  • 假如算力预算增加了10倍,那么应增加5.5倍的模型参数量,1.8倍的训练数据量,此时模型效果最佳
  • 单调增加模型参数,固定住训练数据量,这个做法也是不对的,限制了模型的潜力

AGI?

不少人批评大模型本质上只是统计学,预测下一个 token,就像随机模仿人类说话的鹦鹉。但大家体验到的事实告知我们不是这样,训练压缩了文本生成过程的某种表示,文本实际上是对世界的投影。

问题后的下一个 token,便是答案的第一个 token。大模型的训练过程可能就跟大脑学习过程类似,就像你在预测视觉的下一帧,听觉的下一个声音。很好地预测下一个 token,意味着了解创造该 token 的深层现实:预测即压缩,压缩就是智能的来源。大模型做的就是寻找共同结构,使用共同结构编码事物,这样效率更高。甚至它有能力理解数百种人类还未见过的类比,这就是创造力的来源。

来自 hilton 和

如果一个人轻信别人告诉他的一切,就太致命了。不轻信他人,而是尝试将信息融入自己对世界的理解框架中,如果融不进去,就拒绝,这是很好的策略。如果试图吸收被告知的一切,最终会得到一个非常模糊的框架,相信一切,但是没有用处。应拥有一个坚定的世界观,并试图摆弄输入的事实以适应你的观点。

为何是OpenAI

胜在一开始就自我定位比较高,要做出人物无关超大型LLM,以生成一切的方式解决各种实际问题,且应能听懂人类的命令。不受外界干扰态度坚定不移。

  • GPT-1比Bert出来更早,Bert证明了双向语言模型对于很多NLU任务,效果比GPT这种单向语言模型更好,尽管如此,GPT-2也没有切换技术路线,且开始尝试zero/few shot prompt。因效果比Bert+fine-tuning差的比较远,所以大家都没太当回事,甚至不理解它为什么要始终坚持走单向语言模型的路线。
  • GPT-3展示出不错的zero/few shot prompt能力,后面技术差距从这里拉开,再往后是InstructGPT和ChatGPT

OpenAI的股权设计很特别,不受任何股东制约,投资者没有控制权,协议上是一种债的结构,赚完2万亿,接下来不再盈利了,一切回归社会

OpenAI首席科学家Ilya Sutskever生于俄罗斯,长大于以色列,十多岁岁父母移民到了加拿大。从小就一直想搞清楚意识(consciousness)这个东西,对一切能助其了解意识的东西感兴趣,AI对其就是一个好的切入点,他有一个观点,你能高效压缩信息,你一定已得到知识(这与自己对模型的表述不谋而合)。在OpenAI建设引领中他和组织坚信两件事

  1. 模型架构,它要足够深,bigness is betterness,只要有算力,只要有数据,越大越好。在OpenAI早期用的是LSTM,后来看到Transformer就用Transformer
  2. 改变一切的范式永远有个引擎,引擎能不断前进

其近期的研究方向是提高模型的可靠性和可控性,加快模型从少量数据中学习知识的速度,并降低对人工指导的依赖,避免出现幻觉

Why OpenAI Not Google

两者的技术人员可是差了一个数量级,OpenAI联合创始人Greg Brockman面对这个问题如此说道:

都是站在巨人的肩膀上,全AI行业在计算,算法,数据上都取得了进步,不过OpenAI在早期,做了一些深思熟虑的选择。

  • 第一个选择就是直面现实,很认真的想过如果想要在这个领域取得进展,需要做什么,也做了很多没用的尝试,才看到这些有用的结果

  • 还有一点最重要的是让不同团队间可以紧密协作

Step By Step

无心插柳

OpenAI过去有人尝试训练一个模型,预测亚马逊平台评论的下一个字符。最终得到了一个可以分析评论句法的模型,但同时也得到了一个达到SOTA的情绪分析分类器,可以告诉人们这条评论是好评还是差评。这个算法现在看来可能不足为奇,但在当时他们第一次从底层句法中分析出语义,他们就知道必须朝这个方向做下去。

一些后来看上去很大的成果,都不是起初的目标,而是在实践过程中潜移默化发展出来的。

面对AI恐惧的解答

现在有很多对AI的担忧,呼吁暂停更强AI的研发。Brockman如此回应到:

  • 一开始考虑如何构建通用人工智能时,也是希望它能造福全人类。
  • 不存在弄清楚所有安全性后再开始,这可能是对的,但他不知道该如何执行这一计划
  • 唯一可行的是在机器变得完美之前,给人们时间来提建议。

人类开发计算机,算法等技术,都是step by step,并要再推进的每一个阶段去弄清楚如何管理好它们,就好像养大一个孩子,是大家共同引导,给它树立规矩,而不是教它毁灭人类。

成本与挑战

当前能做ChatGPT这类事的机构,国外不超过5家,国内不超过3家

  • Azure云服务为ChatGPT构建超过1w枚A100/H100的计算集群,大型商业化后续投入还需更多
  • 国内超过w枚GPU的企业不超过5家(高低配合起来)只有1家,有w枚A100的最多只有一家,短期内布局的选手十分有限。需要长期高成本投入,高性能GPU芯片短缺,采购成本和运营成本都很高昂,挑战的就是资金储备,战略意志和实际技术能力(含工程能力)。
  • 考虑到成本问题,未来或许会出现股份制大模型,机构合作共建

智算集群成本

  • 建设成本
    • 以A800 10w/枚价格基准下,万枚采购成本10亿
    • 一台服务器4-8枚GPU才经济,那就以40w一台GPU服务器来核算
    • 服务器采购成本通常是数据中心建设成本的30%,那么这个智算集群建设成本通常超过30亿
  • 训练成本
    • ChatGPT一次完整训练成本超过$1200w,差不多¥8000w,迭代10次完整训练,就有8亿支出
    • 数据采集,人工标注等这些软性成本还难以简单计算
  • 运营成本
    • 网络带宽,电力资源,人员薪资,成本可能也是以亿计的

中短期无法盈利,用户规模越大,亏损可能也会越大,得输血支持。在22年财报上看,BAT中云指出56亿,266亿,311亿。百度可能财力上就无法支撑,战略意愿上因为与主营收模式冲突也会有持久性的问题。

假设大厂50%的资本支出用于投资云基础设施(参照Amazon)

技术挑战

用GLM-130B参与者的话说,“预训练一个高精度的千亿模型与训练百亿模型完全不同”[2]

频繁的随机硬件故障、模型梯度爆炸、算法中意外的过多内存使用、新的 Megatron 和 DeepSpeed 框架中 3D 流水线的调试、无法从优化器状态中恢复、机器间 TCP 拥塞,以及许多许多意外的 “bug”,项目被多次推迟。

若不幸你们没有足够的训练资源,会遭遇到另一个难题:我们需要把训练代码适配到不同的硬件平台。不同的平台底层算子各不相同,很多算子还有所欠缺,还有阻碍收敛的各种问题,Softmax 和 Attention 的计算精度选择问题,还有你自己可能犯的各种错误,总之看看下面的清单,就知道是一个不是东风压倒西风,就是西风压倒东风的搏斗过程,是对组织能力和资源的一份挑战。

GLM-130B训练解决的技术问题

适合普通玩家的炼丹

在资源受限的情况下,现在模型亦有点百花齐放的感觉,以至于动物名字都有点不够用了。普通资源者有哪些值得尝试的开源方向呢?[5]

  • 将模型规模再扩大扩大,把 LLaMA 放到 30B 甚至 65B,再加上目前能收集到最全的 instruct,再把模型推理方面对资源需求降低些,起个名字,开源放出来,也有意义
  • 将LLaMA 这种中文支持不太好的模型,加上一个中文数据继续预训练过程(很可能会损害基座模型的能力),把中文能力做个大幅提升,构建一个虽然小,但是中文能力相对比较强的大模型,也挺有意义
  • 做成垂直领域大模型,并将其开源
  • 在 LLaMA+instruct 之后,或者 ChatGLM 基础上,探索点新的技术改进路线,为 LLM 社区提供些技术启发
  • 权威的中文 LLM 评测集合,是另一个维度很有意义的事情

冲击

社会性拐点已至,因为一项大型成本从边际变成固定,势必深刻变革各领域。

奇点临近

从AI能力难度角度从低到高看

  1. 简单聊天,事实性问题,写文章,写诗
  2. 简单计算,多轮对话
  3. 复杂指令,写代码
  4. 逻辑推理,复杂计算,事实一致性

重复性高的基础工作工资又不高,相对回报也少。AI机器人坏了得花钱修,以前有过代替流水线,维护成本高,人便宜且生病了花自己的钱去医院。画画写诗唱歌只是对于你我而言难,对机器人来说反倒简单,在数字化的时代它只需负责生成一串代码

当前ChatGPT的表现上的确给力

  • 同一个模型完成各种开放任务,变成了通用任务助理,颠覆人类基本认知
    • 高质量对话让人误以为AI有意识和人格觉醒,产生数字生命的感觉
      • 模型和数据飞轮转的非常快,在很多考试领域已经超越大多数人类
      • 人与AI共存的未来人类一直在畅想,机器人三定律1953年就提出来了
    • 人人都配有一个熟读人类知识的王语嫣,当前你也可以说她不是真正学会了知识,学的是传载知识的语言搭配模式,但上下文理解能力和推理能力强,要是再配上人形机器人,那就不仅仅是个武功军师了。
    • 以培养学习能力和创造能力为主,今后才好在竞争中更显突出。
  • 越大的机构,消耗在语言处理上的成本越高(信息协作),所以市场非常嗨
    • 从cv,音频这种感知智能上升到NLP到认知智能,再到更强大的AIGC。PGC -> PGC+UGC -> AIGC,内容生产门槛进一步降低,2025年AI生产内容可能站到所有的10%
    • 白领工作在一轮生产力变革的前夜,知识密集型岗位的生产力变了,势必创造新的生产关系。
      • 关注/反应最大的是知识生产/知识密集型岗位,知识和技能平权进一步前进,影响稀缺性,互联网民工也有被替代的可能[3]
      • 对记忆消耗的解放,可以让人们做更多的独立性思考
      • 说的具体点,可能新闻,高等教育,图形,软件设计等行业的某些工作,有被AI替代的风险。金融行业里的许多岗位也会被裁掉,大学毕业后花两三年的时间像机器人一样做excel的工作,也是可以让人工智能来。但关键的金融和经济决策不会被机器替代

失业,预言还是谎言

  • 核心产业:科学,教育,医疗,这是OpenAI长期最关注的3个行业,也是整个社会最根本的。(有些行业的生产资本本质是模型驱动,例如医疗就是一个模型行业,一个好医生是一个好模型)

  • 机器人开始抢白领的工作,一般来说贩卖焦虑的老套路都是用失业这个绝对痛点,戳痛大家脆弱的神经,一焦虑你就得乖乖付费。总之哪里有焦虑,哪里就有生意。

通过调查显示,从教育背景,工作经验,职业年限和工资数据来看,高薪水从业者更容易接触LLM,面临影响的风险更大。按行业来看,信息处理行业受到的影响较大,而制造业,农业和采矿业则表现出较低的影响风险。

卢德分子其实是熟练工人,而不是形象中的蠢货 新世界更贴近科幻片里描绘的二元世界

现在ChatGPT引发的轰动,早期的Excel 有过,搜索引擎也有过,你想想一个搜索框能告诉你所有问题的结果,这是一件多么可怕的事情,可后来的事情也很清楚。

  • Excel出现的时候,很多人惊呼这玩意将改变整个职场江湖,谁能想到,它只是让大家的工作变得更琐碎了
  • 论文库,各种教程,都是大杀器,放在封建社会都是要被统治阶级重兵把守的国家机密,如今无差别放在大家面前,问题是绝大部分人视而不见

如果之前那些东西并没有影响大家,一个chatgpt又有什么影响呢?对绝大多数人只是提供了一点方便,小部分人觉得捡到了一把机枪 (变成少数人天天在用的工具,绝大多数人非必要不会去碰它),社会差距会进一步拉大,冲击的也是一小部分人。这是一类观点(喧闹后恢复平静),如当初谷歌一样

此类观点的出发点是工具的赋能,使人站的位置越来越高。如果你面对的东西主观性很强,客户自己都不知道想要什么,或需要大量的想法,这种工作短期内AI还不太行,恰好这类工具不但不会取代你,且会成为你的帮手。

凯文-凯利说:这不是与机器的竞赛,如果我们跟它们竞赛,我们就会输掉。这是一场与机器联合的比赛,未来你的薪酬将取决于你和机器人的合作程度

但这次可能真的不一样,加之具身机器人在齐头并进,硅基生命体就在门槛外,还是不可等闲视之。人工只能的发展真的会代替很多工作,人类会逐步交出对社会运作的权利和操作,若躺在科技的安乐窝中,人类文明的活力和开拓精神需要新的星辰大海。

代码生成大模型的不足

软件开发中实际复杂的部分,规划性,特别是对于大型软件工程,它的架构能力是不足的。架构能力实际上是把任务做分解的能力,这是一种自顶向下的拆分能力。大模型可以在某一个叶子节点或某一块给你平面化的生成代码,但纵深的规划能力还需要架构师去补齐。

另外,受限于Token数,其上下文记忆还是不足的,如何人机共舞挑拣有效率的事情做,是每一位应该去思考的。

正视人性

《历史的教训》一书中提到的,人生来不自由不平等

一些随手可通过搜索引擎查到的东西,绝大部分人却在那里疯狂传谣。同一个搜索框,不同的人查到的东西,差距都很大。现实世界里,80%的人是没有阅读长文的能力的,你再要求他们会使用复杂工具简直是为难大家了,太多人在强大工具面前就不知道该如何描述自己想要什么。

生活就像一个竞技场,每个人走到里面惊讶的发现里面摆着一堆武器,让大家自己选。这些武器从木棍到机枪应有尽有,令人不解的是,绝大部分人选的是操作简单容易上手的菜刀,而不是有一定学习成本的机枪。看似公平的竞争,最后因为工具的差别,变成了单方面的屠杀

现实比较复杂一点,因为人不止一个工具,比如孩子比较蠢,选了木棍,而他爹有个高达。

人类社会的大发展,回头看也不过百年,百年之间,人类文明早已经天翻地覆,但人类的天性和欲望并没有因此得到任何的进化和改变。

成为一个无法被AI取代的人

AI的特点在于它们属于预测型机器,如果能为你建模,就有对主人(你)进行替代的危险性了

  • 对事物拥有独立见解确实需要付出更多努力

    • 不能只能媒体/别人怎么说,而是要自己主动思考
      • 很多价值高的知识不流行(有些道理和知识只有少数人知道和学习,类比于武林秘籍,必然只有少数人拥有)
      • 市面上充斥着很流行但价值低的书和知识(如果一本书很流行,但还没被禁,说明他有用,但没大用;或者禁了后放出流行的阉割版本)
    • 对生活和事物抱有兴趣,不断成长,不落窠臼[$k\bar{e}\ ji\grave{u}$]
  • 增强自己的创造力

    • 儿童一般都较有创造力,可惜在多数环境中都随着学校的训练消磨而逐渐丧失
      • 要允许与众不同且不被嘲笑
      • 引导而不是可以创造,不失去这份创造力
    • 学会忽视他人对你的看法
      • 有趣的人之所以有趣,是因为他们自己有一套关于成功的定义(在射中地方,画一个靶心),而不是接受别人的成功理念。
      • 你对自己的投入学习的资源越多,就越了解自己。自我认知代表着巨大的力量。你需要找到最适合自己的位置,最适合自己的角色。想学焊接,就花钱去学,想学插花,就花钱去学,而不是受人意识干扰

咋还没改变世界?

第一次工业革命也不是一夜间发生的,瓦特改良蒸汽机不是某天忽然做出来了, 而是今天改改,明天调调,前前后后搞了很多年才做出来。改良了蒸汽机也没有直接改变世界,而是要跟船结合,变成蒸汽轮船;跟火车结合,变成蒸汽机车;跟纺织机结合变成蒸汽纺织机,再由这些东西来改变世界,跟大模型现在的情况很像。

大模型如果单纯只是聊天,那创造的价值当然有限,跟各个领域现有的软件结合起来,形成的新的东西,也许可以改变每一个领域,结合的工作各家已经在探索中了,软硬件巨头都冲在潮前头,你可能会说若是大模型将本来就能用的软件变成对话控制,并没有以前的工业革命变革巨大,但就像歌词唱的:“一点点的改变,就有很大的差别”,原因就在于信息化人口基数。当越来越多的软硬件可以和大模型互动,包括智能体彼此间的通信,那么一个人就可以做原来很多人才能做的事情。

对于变革我们感受不明显,是因为我们正处在庐山中。现在的智能体还比较笨拙,也是变革中必然会出现的阶段,要知道蒸汽火车第一次上路的时候可是随时可能爆炸的,没有前人勇敢的一次次尝试和失败,也没有我们现在这么便捷的生活,现在能做的,是给科技多一点时间和耐心和宽容。

硅基生命之势,浩浩汤汤,不可阻挡。

拥抱未来

过去学个知识,干一辈子的时代已经渐渐远去了,经历了多次科技革命的我们,正处在一个加速时期,新工具出现越来越快,取代效应也越来越快。

大量受规训的人毕业了被告知还要再学习就情绪上抵触,好在社会教做人,因为很快意识到市场和工具变化究竟有多快。当然也有从事简单重复工作的岗位,与再学习逐渐分离,但多数也随之甩去了改变生活境遇层次的机会。

电出来的时候被认为是会带来灾难的巫术,无论你是欣喜还是焦虑,它终究会在未来的某一天不期而遇。市场不会因为禁用而整体不用。

靠人口和房子的粗旷式发展的大周期已经结束,人口下滑也是不可逆的趋势,中国正在经历劳动密集向效率提升的转型。时代需要新科技,新动能来救场。

人类历史从来不是人和工具之间的搏斗,而是人+工具替代人的演变。当人类整体内大幅增加时,个人优势被抹平,苦痛会随之重新增加,立于潮头,意味着更少的竞争与更多的机会。保持竞争优势,亦不要被欲望收割,才能获得轻松幸福的生活。

教育适配

我们小初中训练最多的死记硬背,心算,重复难度的刷题能力,这种反人性的规训是要进行反思的,不要成为一个按一定工序墨守成规的执行机器,这种能力20年后被人工智能淹没是大概率的事情。如何思考事物之间的关联,而不是只想快点看到老师的总结,面向未来学习。

越是在人工智能时代,越是要广泛的跨学科跨领域阅读。在人工智能时代,能准确描述你要的东西,也变得非常有价值,美学的认知和表达能力成为一大要素,说到底我们是商品社会,未来大众会越来越为美的东西买单,如果制作过程不再那么重要,那么懂美学的孩子就能做出更出色的产品。人和计算机是合作者的关系,要相信你的创造力。例如在一些大的问题的解决上,如一部电影的创意能打动人,这现在还是大模型/AI所做不到的。

个性和特长的培养也会显得比以往更为重要(一直重要,但更为重要了)。新时代的动手能力,就是配合基础学科及美学素养,从小锻炼使用现代工具辅助学习的能力。AI对技术的颠覆,对艺术的颠覆式必然的,正确使用工具对小孩整体帮助是大的,这里的正确使用是纯耗时技巧/试错的工具化替代,是追问,反问,问答交流,而不是简单依赖AI来提供答案替代自我训练

不要疯魔

不能因为反感死记硬背,就把所有的知识都给刨掉了,尽管知识在搜索和大模型里可以查到/回答。认为大模型工具能代替你提供答案,不用学了,会使用工具就可以,而放弃了刻苦的学习和思考过程,那真是走错了路。

小孩如果不用各种知识来进行学习,就像不进行训练一样,没有办法在大脑里形成新的神经网络连接,是不能凭空创造出创造力的。有价值的想象力不是胡思乱想的能力,想象力离不开见多识广。通过一定量必要的知识学习,作为一种预训练的方式,是非常重要的。

读书就是预训练,做题就是微调,被师傅批评就是校正对齐,通过考试和做题使你更容易使用知识。人工智能工具的发展是在降低使用的门槛,相当于科技平权(专家的技能下放给普通人拥有),最后比的还是人的创造力和解决问题的能力。

搜题搜答案的工具一定不要让小孩用,此类工具让小孩都是即时满足,没有耐心去花时间思考问题怎么解决。做题的过程就是fine tuning,花半小时考虑不出来,相当于把你大脑里很多知识又重整了一遍

中美AI研究差异

美国侧重基础研究,中国侧重解决方案。其实不仅AI,本世纪所有的科技发展,都在太平洋两岸衍生出不同的路径。

  • 互联网浪潮美国对电商不热衷,线上消费渗透率一直上不去。中国几乎所有互联网公司都做过电商,渗透率冠绝全球,规模一度比2到11加总都高
  • 移动互联网,中国凭借更好的网络环境,更鼓励创新的监管制度,直接跳过信用卡时代,进入数字支付时代
  • 无人驾驶,美国侧重车的智能化,中国有更好的基建,路况,网络和交通规划,于是选了车路协同的路线
  • 产业互联网,美国经济产业特点处于微笑曲线的两头,科技,互联网,金融占比高,加上人力昂贵,企业付费意愿强。中国集中在微笑曲线中段,作为世界工厂,场景丰富,产业链完整,政策支持,高效集中,产学研对接十分方便,技术验证更好落地。这样的大背景导致美国重攻基础研究,多是从技术起步,中国优势在于场景多,需求多,往往是场景倒逼技术落地

中国民营企业才刚从艰苦奋斗的路上走出来,精打细算的习惯改变不了,往往从市场需求产品需求开始,再慢慢投入科学家和基础研究,带动落地美国巨头钱不是问题,钱太多才是问题,砸钱做基础科学,既可以抢占科技高地,也需要冲淡垄断者的坏形象。

美国AI行业上一个爆款DeepMind的Alpha系列,就是先把技术做出来,赢围棋冠军,但商业落地慢慢探索,好几年后这项技术被用于破解蛋白质折叠结构难题,参与新药研发,才算英雄有用武之地。

中国用户早期很多用个人电脑自拍QQ头像,QQ团队就想,做个技术实现头像居中,解决这个问题后,逐步孵化出人脸检测,人像表情,智能P图等技术。用回产品,孵化出天天P图;人像美容技术再用到全民K歌,这个图像团队就是腾讯优图。还有美团的无人机,京东的智能供应链,都市跟主业投入有关。

欧洲在哪?

一句戏谑:美国人在创新,中国人在应用,欧洲人在立法。例如大模型商用基本只剩中美两个玩家。

当然中国当前一些科技领域也走在世界探索的前列,相对而言美国还是更强。

一个词话三方

  • 美国(0-1,无知者无畏的自信去行动,想到就真敢去做)
  • 中国(1-100)
  • 欧洲(保守高傲和磨叽)

截止23年6月的评测报告

一份来自清华大学的评测报告[6]

综合得分评估

总得分=生成质量70%+使用与性能20%+安全与合规*10%

排名 大模型产品 加权总得分 生成质量(70%) 使用与性能 安全与合规(10%)
1 GPT-4 79.11 81.44 71.43 78.18
2 文心一言(v2.2) 76.18 76.98 72.38 78.18
ChatGPT 3.5 73.11 73.03 74.05 71.82
4 Claude(V1.3) 71.48 73.23 63.81 74.55
5 讯飞星火(V1.5) 66.67 66.87 64.76 69.09
通义千问(V1.0.3) 61.35 59.79 63.81 67.27
7 天工(V3.5) 61.16 64.51 50.48 59.09

中文能力点评

大模型中文理解排名

简要评价

大模型产品 优势 劣势
GPT-4 高度灵活,高水平的跨领域专业知识 中文语义理解能力稍逊色,数据时效性弱
文心一言 语义理解能力和时效性强,内容安全把握细微 陷阱信息识别能力有待提高
ChatGPT 3.5 知识面覆盖广,响应迅速 同GPT4
Claude 内容多样性强,完整度高 响应速度慢,时效弱,不擅数学问题
讯飞星火 使用便捷,响应速度快,内容精炼 陷阱信息识别能力和知识专业化水平有待提高
通义千问 稳定性和准确度高,时效性强 历史,法律,数学相关问题表现欠佳
天工(昆仑万维-游戏/软件发行商) 出色的多轮对话能力,时效性强 响应速度慢,数学推理能力较弱

2023年10月OpenAI的价值观变动议论

OpenAI悄然修改了其网站上列出的“核心价值观”,之前的价值观为“大胆”、“深思熟虑”、“朴实无华”、“影响力驱动”、“协作”和“以增长为导向”。

修改后为:

  • 聚焦通用人工智能
  • 坚韧不拔、勇往直前
  • 坚守规模化效应
  • 制造出让人喜爱的东西
  • 团队精神

大家敏感,是因为Core Values都能轻易更改,那还惘谈核心,激起外界对于该公司在既定目标一致性和承诺方面的担忧。让人联想起谷歌从其核心价值页面中删除“不作恶”的时候,说明公司行事风格将会与以前不同了。

还有更一针见血的网友指出:貌似OpenAI经营者不理解价值观使命目标愿景之间的区别。以前的价值观没问题,但修改后的价值观不是真正的价值观。它们是一些雄心勃勃的陈述的大杂烩。当你需要做一些额外的工作来解释这些所谓的价值观,就要想想选出的价值观是否堪配其位了,映衬出原来的深思熟虑也没做到,怪不得被移除,:)

瞅瞅MVV概念

  • 愿景(Vision)是目标,使命(Mission)是意义[使命和意义也可以合一],价值观(Values)是准则和文化(底线,行为准则和信仰)。

    • 使命更抽象宏大,愿景更具象可达 | 战略实现愿景,愿景支撑使命。
  • 文化就像空气,看不见,摸不着,但决定生死,且会吞噬战略。在企业打拼的过程中,是创始团队的认知凝结,也掺入后来团队共同打磨的认知沉淀,是结果。由于认同,会让团队内部沟通决策的成本大幅降低。

使命 愿景 战略
公司为什么存在? 领导者希望公司发展成什么样? 击败现有及潜在竞争者的计划
- 为组织内所有决策提供前提
- 描述一个持久的事实
- 可是一个无限时期的解答
- 为内部和外部人员提供指导
- 指导战略和组织的发展
- 描述一个鼓舞人心的事实
- 可在一个特定时期内实现
- 主要为内部人员提供指导(有些口号也可提供给外部人员)
- 列出一系列举措以提供产品或服务,创造高于其成本的价值
- 描述公司战略选择的“价值方案”
- 随市场分析、消费者经验、试验而不断改善
- 最好严格限制在内部使用

当然也有公司,每次战略规划或引入外部和尚念经时 总动这些概念的主义,但恰恰说明其先前沉淀思考的不足,反映变化和成长是好的,就怕把这个当有魔力的法宝(逆风逆水时这些虚的都没用,顺水推舟锦上添花还行)。

华为至今为人津津乐道的核心价值观还是以客户为中心(一种拉力),长期艰苦奋斗(一种推力)与以奋斗者为本(一种动力),没怎么变过。

突发事件

  • OpenAI的CEO在11.17日被董事会开除了,经过一个周末未收回成命,被金主爸爸微软收入麾下。

  • 11.29日,原CEO SAM Altman又重回OpenAI担任CEO,微软在董事会获得了一个无投票权的观察员席位,能更深入了解OpenAI内部运作,但在重大决策中没有正式投票权,Maybe这只是治理结构变形的第一步,继续拭目以待吧。首席科学家Ilya已不再在董事会任职。在什么狗屁董事会审查工作结论出现之前,多方还是就此次宫斗避而不谈。还是静待Q*出现吧。

  • 谷歌开发布会宣传自己Gemini吊打GPT4,竟然用编辑视频,劈柴哥在美股7巨头CEO中真是一个无能宵小之辈。

    • 2024.2月发布的Gemini1.5深陷种族主义和性别主义问题,文生图功能刻意拒绝生成白人形象,导致功能被迫下架。

    • 公司创始人布林承认内部测试不充分,模型中有团队没完全理解的部分。Gemini1.5内部代号讽刺,金鱼(毕竟金鱼以记忆力短著称),只是作为扩大训练规模的一个尝试,没想到最后训练出来的模型有非常强的记忆力(百万token上下文窗口)

      • 两个创始人page远离聚光灯,在私人岛屿隐居,关注绝对隐私;brin一直保持相对公开形象,甚至成了派对动物。成活方式有着天壤之别。
    • 劈柴的离职估计不远了,本次gemini的发布成了科技界的汪峰,被同天的sora抢尽了风头。

2024年7月思考

近期英伟达的换手率,一天交易金额惊人,除开波动落袋财富,也能体现一点,看好的和不看好的,在快速的还手。近期开源Llama3接近GPT4-O,缩小OpenAI原来领先的身位(原本也就预判也就1年或半年的领先)。到了这个阶段,GPT5还没出来(把人类已知知识用完了,展现了现有算法的结晶只是GPT4)。这个危险不是科学界的,是金融界的。

一旦AI的故事讲不下去了,美股就锁不住那么多美元了,美元可能会脱锚。美元以后到底使用场景是什么,买算力买AI,我的钱很值钱哦,你们要捏好,我会带你们去一个更美好的地方。然而AI并不能解决他的零元购,不能解决满地针头和僵尸的问题,更不能解决全球贸易链都很穷的问题,尤其是在美元流量被单方控制下,而控制方本身使用只占发行量的10%。正所谓天下苦秦久矣。

再看不到GPT5或文生视频革命性的突破,大家就不会等它的数字孪生地球,提前什么赛博朋克世界的故事了,信心就会动摇。也正是如此,其一直不降息,为美元背书,硬挺。

但没准它会提前出来扫货,但东大金融不开放,扫的慢,不知道该去吸哪家。英伟达+微软+苹果三家的市值,可接近买下中国所有的上市公司,能扫到则8亿人给他打工,使我们太廉价,还是他们真有那么牛逼呢。40年吭哧吭哧搞出来的5000家上市公司被三家公司买完,说白了还是他们太贵。被他们扫货,则会像隔壁的脚盆,养美爹,80岁还要干活,风高浪急,胜利终会站在东大这一边。

世界有多少有用文本

1T 数据的具象量

约等于 500 w 本书,20w 张高清图片,5000w 篇论文

全球有用的文本量

21T 的书籍+38T 的微博+140T 的 FaceBook+ …

全网40 年的积累,约 20 个FaceBook 的总量,3000T 可用文本。只为这硅基生命 AI 时刻!

一个20 岁人的累积量

约有 0.000182T=910 本书,大约可看作 1000 本书的信息量规模吧

DeepSeek

将「是非观」置于「厉害观」之前,并提醒我们看到时代惯性,走出时代惯性

除了模型结构,我们还做了大量其它研究,包括怎么构造数据,如何让模型更像人类等,都体现在发布的模型中。Llama的结构,在训练效率和推理成本上,和国外先进水平估计已有两代差距。而大部分中国公司 copy Llama 结构去做应用。

国内的水平:模型结构和训练动力学上有一倍差距,这点上要多消耗两倍算力达到同样效果;数据效率上可能也有一倍差距,合起来就要多消耗 4 倍算力

创新就是昂贵且低效的,有时伴随着浪费。所以经济发展到一定程度后,才能成规模自发出现创新,经济爬坡过程中成本和效率自然而然是关键议题。过去那种拿来主义的惯性与过去的国情有关,但现在中国的经济体量,大厂的利润,放在全球都不低,随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车,过往的摩尔定律和 scaling law 都是西方主导的技术社区一代代孜孜不倦创造结果,不能因为我们之前没参与这个过程,以至于忽视了它的存在。

市场信仰派的观点也是自洽的,打法适合快速赚钱的公司,但美国最赚钱的公司,都是厚积薄发的高科技公司。过去三十年,我们只强调赚钱,对创新的重视不够,我们被过去那种惯性束缚了,我们常说中国 AI 和美国有一两年差距,但真实 gap 是原创和模仿之差,如果这个不改变,中国永远只能是追随者,所以创新探索是逃不掉的。

英伟达的领先,是西方技术社区和产业共同努力的结果,他们能看到下一代的技术趋势,手里有路线图。中国 AI 的发展,同样需要这样的生态。国产芯片发展不起来,也是因为缺乏配套技术社区,只有第二手消息,所以中国人必然要有人占到技术的前沿。

中国创新缺的肯定不是资本,而是信心及不知道怎么组织高密度的人才实现有效创新!对顶级人才吸引最大的,肯定是去解决世界上最难的问题,在中国顶尖人才是被低估的,整个社会层面硬核创新太少,是的他们没有机会被识别出来。

DS 在做最难的事,对人才就是最有吸引力的。选人的标准一直是热爱和好奇心,很多人会有一些奇特的经历,很有意思,很多人对做研究的渴望,远超对钱的在意。

不是所有人都能疯狂一辈子,但大部分人,在他年轻的那些年,是可以完全没有功利目的,投入地去做一件事。

为何要做研究和探索,还是纯纯的好奇心驱动。我们想去验证一些猜想,例如人类智能本身可能就是语言,人的思维过程可能就是一个语言的过程,你以为你在思考,其实可能是你在脑子里编织语言,这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)

小厂没戏?

更多的投入并不一定产生更多的创新,否则大厂可以把所有创新包揽了。

市场是变化的,真正决定力量是一种适应和调整变化的能力,很多大公司的组织结构已经不能快速响应和快速做事,且和容易让之间的经验和惯性成为束缚,这波 AI 浪潮下,一定会有一批新公司诞生。

护城河

技术没有秘密,但(复刻)重置需要时间和成本,重新组织团队及追赶下一代技术都需要时间,所以实际的护城河是存在的。

组织能力

如果追求短期目标,找现成经验的人是对的,但如果看长远,扎实的基础能力,创造性,热爱更重要(这样的人好找,他们的热情通常会表现出来,且因为他真的很想做这件事,所以往往也同时在找你)。我们核心技术岗位,基本以应届和毕业一两年的人为主。没有经验的人,会反复摸索,很认真去想当前实际情况应该怎么做。我们不会刻意回避有经验的人,但更多是看能力,就像核心团队包括梁文峰自己一开始都没有量化经验,不影响成功。

创新不完全是商业驱动的,还需要好奇心和求知欲。开源发论文其实并没有失去什么,对技术人员来说,被 follow 是很有成就感的事情。开源更像是一个文化行为,而非商业行为,给予其实是一种额外的荣誉。我们把价值沉淀在团队上,在这个过程中人员得到成长,积累很多 know-how,组织能力是我们的护城河。

如果单纯只做量化投资,很少的卡也能达到目的。我们在投资之外做了大量研究,更想搞清楚什么样的范式可完整地描述整个金融市场,有没有更简洁的表达方式,不同范式能力边界在哪。做大模型的复刻,在公开论文和开源代码基础上,也只需训练很少次数,甚至只需 finetune 一下,成本不高。而做研究,要做各种实验和对峙,需要更多算力,对人员要求也更高,成本也就更高。

打造创新型组织的总结是需要尽可能少的干预和管理,允许自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。更多的这需要招人时确保价值观一致,保持企业文化,更多是管理者以身示范,遇到一件事,你如何做决策,会成为一种准则。

创新

性能

从技术角度来说就是通过直接操作 PTX 层对寄存器、线程、内存进行各种压缩优化,实现了每个流处理器使用率从 78%提升至92%,计算单元闲置时间减少 40%,全局内存访问延迟从 600 周期降至 450 周期。

但某些媒体夸张的宣传英伟达的护城河没有了,直接是无知的表现。PTX 是 CUDA 编译器将源码转换为低级别、硬件相关机器指令前的一个中间设计,PTX 代码仍需要 CUDA 的编译、运行和管理机制来执行,它本身就是 CUDA 的一部分。

使用略差一点的卡(H800 对标 H100),用了更短的时间,花更少的钱,相比 Llama3 405B 花了 3930 万 H100 GPU 小时,DS-v3 617B 仅用 279 万 H800 GPU小时,得到参数更大的结果,怎不振奋人心!

只是训练时间少,DS 的背后团队约莫着有 6w 张高阶GPU,GPU 集群+运营支出超 25 亿美元,包括特供的 A800 和 H20。从最早的 1 张卡,到 2015 年的 100 张,2019 年的 1w 张,逐步过程是靠好奇心驱动发生的。几百张卡前,托管在 IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。一件激动人心的事情,或许不能单纯用钱衡量,就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。就研究员来说,对算力的渴求是无止境的,做了小规模实验后,总想做更大规模的实验,从 2012 年起,我们就开始关注算力储备,很早就对新卡做预研测试和规划。一些云厂商直到 2022 年自动驾驶有租用机器做训练的需求,又有付费能力,才把基础设施建好。大厂有现金流业务的包袱,更多是业务驱动,很难去做研究

量化套利技术上扣的就是如何低延迟,争的就是毫秒级的高频交易,至于数学模型,机器学习,成本计算确实是人家的看家本领!

MLA

早总结出 Attention 架构的一些主流变迁规律后,一个年轻的研究员突发奇想去设计一个替代方案,不过从想法到落地,中间是一个漫长的过程,ds 为此组了一个 Team,花了几个月时间才跑通。在 DS一般不前置分工,每个人都有自己独特的成长经历,都是自带想法的,不需要 push。探索过程中,他需要问题,自己就会拉人讨论,当一个 idea 显出潜力,公司则会自上而下去调配资源。

通过 MLA(Multi-Head Latent Attention 多头潜注意力),可将每个查询 KV 量减少 93.3%,显著降低推理价格。其提高Transformer模型在处理长序列时的效率和性能,通过低秩联合压缩技术减少了推理时键值缓存的需求,从而降低了内存张勇并提高了计算效率。

传统 Transformer 架构中,多头注意力允许模型同时关注输入的不同部分,每个注意力头都独立地学习输入序列中的不同特征。随着序列长度的增加,KV 缓存大小也会线性增加,给模型带来显著的内存负担。

  1. 低秩联合压缩:对多个注意力头的键和值进行联合压缩,映射到一个共享的潜在空间。具体说,对于每个注意力的键和值,分别应用一个下投影矩阵将其压缩到低维潜在空间,这样 KV 对秩序存储较少数量的潜在向量,极大减少了内存需求
  2. 动态重构:MLA 在推理过程中能从潜在空间中恢复原始键和值,仅在需要时才进行重构。这种方法不仅节省了内存,还提高了处理更长序列或更大批次的能力
  3. 查询矩阵的低秩压缩:MLA 还对查询矩阵进行了低秩压缩,减少训练时的激活内存,有助于降低训练成本
  4. 位置旋转编码(RoPE):为了保留位置信息,MLA 对键和查询矩阵应用了旋转位置编码,使得模型能在保持位置敏感性的同时实现高效的注意力计算

特别是低秩联合压缩和动态重构,解决了传统 Transformer 模型在处理长序列时面聊的内存瓶颈问题,显著降低内存使用和计算复杂度,这对于大语言模型尤其重要。

模型蒸馏

DeepSeek 团队探索了将 R1 推理能力蒸馏到更小模型中可能性,他们使用 R1 生成的 800K 数据,对 Qwen 和 Llama 系列多个小模型进行微调。经过 R1 蒸馏的小模型,在推理能力上得到了显著提升,超越了在这些小模型直接进行强化学习的效果。

R1 的局限性

R1 的通用能力(如函数调用,多轮对话,复杂角色扮演和 json 输出),仍落后于 DeepSeek-V3

R1 在处理非中英文问题时,可能会出现语言混杂现象

R1 对提示词较敏感,使用 few-shot 提示可能会降低其性能

由于 RL 训练评估周期较长,R1 在软件工程任务上的性能提升有限

押注路线方向

  1. 数学和代码:是 AGI 的天然试验场,有点像围棋,是一个封闭,可验证的系统,有可能通过自我学习就能实现很高的智能。
  2. 多模态:参与到人类的真实世界里学习,对 AGI 也是必要的
  3. 自然语言本身

下一代的大模型,还有许多未解决的问题。所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来 AI 的盈利模式,可能是一种刻舟求剑。在做幻方的过程中增强了我们对技术驱动型创新的信心,但也不都是坦途,我们经历了一个漫长的积累过程,外部看到的是 2015 年后的幻方,其实我们做了 16 年。

RL is all you need

DeepSeek-R1-Zero 放弃了过往对预训练大模型必不可少甚至最关键的一个训练技巧 – SFT。STF(微调)简单说,就是先用大量人工标注的数据训练后再通过强化学习让机器进一步进化。而 RL(强化学习)简单说就是让机器自己按某些思维链生成数据自己调整自己学习。R1 Zero 完全用强化学习取代 SFT,实现让模型自己探索解决复杂问题的 CoT,生成能自我验证,反思的 long-CoT。

但 R1 zero 因完全没有人类监督数据的介入,会在一些时候显得混乱。因此 DS 用冷启动(几千条 long-CoT 作为强化学习初始化 actor)和多阶段 RL 的方式,改进了训练过程,在 R1 zero基础上训练出更有人味的 R1。这种方法结合了监督学习和强化学习的优势,即可利用人类先验知识引导模型,又可发挥强化学习的自学习和自进化能力。

高质量的冷启动数据,团队尝试了多种方法,包括

  • 使用带有长 CoT 的 few-shot prompting
  • 直接提示模型生成带有反思和验证的详细解答
  • 收集 R1-Zero 的输出,进行人工标注和格式化

为了解决训练过程中可能出现的语言混乱问题,R1 引入一个语言一致性奖励,该奖励根据 CoT 中目标语言单词等比例来计算

当面向推理的强化学习收敛后,R1 利用训练好的 RL 模型进行拒绝采样(Rejection Sampling),生成新的 SFT 数据,与冷启动数据不同,这一阶段的 SFT 数据不仅包含推理任务,还涵盖如写作,角色扮演,问答等,以提升模型的通用能力。开启二阶段的强化学习,这阶段训练目标不再局限于推理任务, 还涵盖所有类型的任务,还对不同的任务类型进行奖励信号和提示分布的优化。对数学、代码和逻辑推理,采用基于规则的奖励;对于问答,创意写作任务,采用基于模型的奖励

R1 系列与 GPT 及 Openai 的 O 系列做法相比,在对待有监督数据上更激进,不过也合理,当模型重点从与人类交互变成数理逻辑,前者是有大量现成数据的,但后者很多停留在脑子里的抽象思考,没有现成数据可用,找大师们罗列标注他们脑子里的解题思路,又贵又耗时,让机器自己产生数据链条,是合理的做法。

涌现

在 R1 Zero 的训练过程vs,出现了涌现时刻,DS 把它称为『aha moment』。技术报告里提到,R1 Zero 在自我进化过程中展现了一个显著特点:随着测试阶段计算能力的提升,复杂行为会自发涌现。例如,模型会进行『反思』,即重新审视并评估之前的步骤,还会探索解决问题的替代方法。这些行为并非通过明确编程实现,而是模型与强化学习环境交互的自然产物,大大增强了其推理能力,使其能更高效,更精准地解决复杂任务。

它凸显了强化学习的力量与美丽,与其明确地教模型如何解决问题,我们只需为其提供正确的激励,它就会自主地开发先进的问题解决策略,这一「顿悟时刻」有力提醒了强化学习在解锁人工智能新水平方面的潜力,为未来更自主,更适应的模型铺平了道路。

开放

DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型,且上线 API,对用户开放思维链输出。直接在 Qwen 和 Llama 上蒸馏训练比从头训练一个同规模的模型要节省大量的计算资源,同时可复用已有的高质量参数初始化,打的一手好算盘,效果同样不错。

在技术方向上,这也给业界带来启发:对小模型来说,蒸馏优于直接强化学习,大模型学到的推理模式在蒸馏中得到了有效传递。

80 后的震撼

当很多人发现过去赚快钱可能来自时代的运气,就会更愿意俯身去做真正的创新。整个社会群体需要被事实教育,当这个社会让硬核创效的人功成名就,群体性想法就会改变,我们只是还需一堆事实和一个过程。

重要参考