AGI

AGI
DiffDay
AGI 的定义与安全
通常认知AGI是达到人类智能的AI水平
DeepMind将其定义为「应能完成人类能完成的任何认知任务」的系统OpenAI将其定义为「在最具经济价值的工作中超越人类的高度自治系统」- 它本身对
AGI的定义就很商业化 - 资本家想裁掉大家,这是短期它最大的「不安全」
- 它本身对
- 图灵奖得主
Hinton言道:如果我们创造了一个超越人类智能的AI,且它认为在没有人类干预的情况下会发展得更好,那么它可能会发明一种生物武器来杀死全人类。
幻觉定性分析
当前的文生图模型,都偶有幻觉。有人解释类比于人类的做梦行为。
- 但正常人类是可以区分现实和梦境的,不能区分的是精神病,有精神病的AI也就不安全
- 黄仁勋说:不用担心幻觉问题,可通过增强检索方法来对抗幻觉(在给出答案之前,在可信知识库中进行核实),这确实能抑制幻觉,但也降低智商。
- 可信知识库的范围和质量限制
AGI能力,难度又绕回了类似知识图谱难以突破的怪圈。
- 可信知识库的范围和质量限制
安全漏洞与对齐
大模型框架和基础软件的安全问题,也影响着大模型的稳定性。包含开源程序和第三方组件的安全问题。
- 如
Pytorch的命令注入漏洞 Hugging Face Transforms 4.30.0之前版本存在安全漏洞- 结合
few shot特性的数据投毒风险
模型对齐问题将是大模型的牛皮癣,甚至是癌症
- 补丁数据
SFT成本高,功能有限;修复成本是攻击成本的上百倍 - 没有一个系统能靠补丁来保障安全
- 尽管进行大量红队测试和安全训练,
GPT-4和Claude 1.3等模型亦然容易受到攻击 GPT-4训练3个月,对齐安全花了6个月,一分钟就宣告被越狱,哪怕在发布尚在持续安全强化15个月,结果依然
- 尽管进行大量红队测试和安全训练,
- 安全是设计出来的,不是打补丁补起来的
- 港澳大桥设计安全参数:能抗16级台风,8级地震,30万吨巨轮撞击,使用寿命120年
多种观点
- Lecun:基于概率架构的模型,在解决安全和幻觉问题上希望很渺茫
- Hilton:采用人工智能解决人工智能的安全问题
低级智慧体可完全控制管理高级智慧体吗?
- 不可能永久控制
- 一旦失去控制权,基本没有反转的机会
人类在AGI安全上还没做好准备,现在就像windows 90年代安全状况,安全漏洞多见,且看不到收敛的趋势
好的一面
- 实验室达到了
AGI的水准,但AI安全问题难以解决,没法广泛应用,各位还不用担心工作问题 - 达到了
AGI,安全问题也没解决,也开始应用,最终AI会毁灭人类,大家也不用担心工作问题
猜测
-
AI对齐问题乐观看还要至少3-5年的摸索和解决
-
在安全上,商业公司及国家间的合作效果会让大家失望
-
硅基生命的登场给人类巨大的压力,没准人类要改造升级自身
评论
匿名评论隐私政策













