AGI

AGI

AGI 的定义与安全

通常认知AGI是达到人类智能的AI水平

  • DeepMind将其定义为「应能完成人类能完成的任何认知任务」的系统
  • OpenAI将其定义为「在最具经济价值的工作中超越人类的高度自治系统」
    • 它本身对AGI的定义就很商业化
    • 资本家想裁掉大家,这是短期它最大的「不安全」
  • 图灵奖得主Hinton言道:如果我们创造了一个超越人类智能的AI,且它认为在没有人类干预的情况下会发展得更好,那么它可能会发明一种生物武器来杀死全人类。

幻觉定性分析

当前的文生图模型,都偶有幻觉。有人解释类比于人类的做梦行为。

  • 但正常人类是可以区分现实和梦境的,不能区分的是精神病,有精神病的AI也就不安全
  • 黄仁勋说:不用担心幻觉问题,可通过增强检索方法来对抗幻觉(在给出答案之前,在可信知识库中进行核实),这确实能抑制幻觉,但也降低智商。
    • 可信知识库的范围和质量限制AGI能力,难度又绕回了类似知识图谱难以突破的怪圈。

安全漏洞与对齐

大模型框架和基础软件的安全问题,也影响着大模型的稳定性。包含开源程序和第三方组件的安全问题。

  • Pytorch的命令注入漏洞
  • Hugging Face Transforms 4.30.0 之前版本存在安全漏洞
  • 结合few shot特性的数据投毒风险

模型对齐问题将是大模型的牛皮癣,甚至是癌症

  • 补丁数据SFT成本高,功能有限;修复成本是攻击成本的上百倍
  • 没有一个系统能靠补丁来保障安全
    • 尽管进行大量红队测试和安全训练,GPT-4和Claude 1.3等模型亦然容易受到攻击
    • GPT-4训练3个月,对齐安全花了6个月,一分钟就宣告被越狱,哪怕在发布尚在持续安全强化15个月,结果依然
  • 安全是设计出来的,不是打补丁补起来的
    • 港澳大桥设计安全参数:能抗16级台风,8级地震,30万吨巨轮撞击,使用寿命120年

多种观点

  • Lecun:基于概率架构的模型,在解决安全和幻觉问题上希望很渺茫
  • Hilton:采用人工智能解决人工智能的安全问题

低级智慧体可完全控制管理高级智慧体吗?

  • 不可能永久控制
  • 一旦失去控制权,基本没有反转的机会

人类在AGI安全上还没做好准备,现在就像windows 90年代安全状况,安全漏洞多见,且看不到收敛的趋势

好的一面

  • 实验室达到了AGI的水准,但AI安全问题难以解决,没法广泛应用,各位还不用担心工作问题
  • 达到了AGI,安全问题也没解决,也开始应用,最终AI会毁灭人类,大家也不用担心工作问题

猜测

  • AI对齐问题乐观看还要至少3-5年的摸索和解决

  • 在安全上,商业公司及国家间的合作效果会让大家失望

  • 硅基生命的登场给人类巨大的压力,没准人类要改造升级自身