国产大模型四巨头现场激辩:价格战对中国 AI 有利,但降价逼不出 AGI

  • 惹眼热点
  • 时间:2024-06-18 10:33:16
  • 浏览:23
  • 评论:0
  • 标签:
来源:爱范儿与 ChatGPT 交手 500 多天,AGI、Scaling la

来源:爱范儿

与 ChatGPT 交手 500 多天,AGI、Scaling law、以及开源的浪潮依然是 AI 圈风头正劲的话题焦点。

恰逢昨日,一年一度的国内‘AI 春晚’——智源大会又再一次拉开了序幕。

智源研究院院长王仲远也与百川智能 CEO 王小川,智谱 AI CEO 张鹏,月之暗面 CEO 杨植麟,面壁智能 CEO 李大海齐聚一堂,展开了一场名为通往 AGI 之路的尖峰对话。

从大模型的技术路径怎么走,到开放生态与封闭研究,再到商业模式的探索等,‘大模型四虎’激辩的议题都如重锤击鼓,响彻云霄,隐约勾勒出 AI 下一步的发展方向。

主要观点如下:

大模型通过规模化可以产生智能,总体上大模型在通往 AGI 的道路上没有本质问题。

Scaling law 有助于逼近 AGI,但光靠 Scaling law 不够,需要范式改变。

大模型是通往 AGI 的基石之一,但是否唯一基石取决于 AGI 的定义。

AGI 的定义不需要精确量化,但短期内需要一些量化指标来衡量进展。

AGI 可以通过能否造出医生的能力来衡量,医生是智力密度最高的职业之一。

大模型可以通过降低成本逼近 AGI,但需要更高智能密度的小型化模型。

AGI 的定义是动态的,内涵和外延不断变化。AGI 是目标,当前以人为参照,未来期待超越人类智能的水平。

安全包括意识形态安全、长远的文明安全和现实的模型能力。当前安全问题还未到边界,需努力提升能力。

价格战对中国发展大模型有利,带来普及和减少资源浪费。企业需定位自身角色,不需要大量模型。

端侧模型需要与云侧协同,价格战短期内有营销成分,未来需更健康的商业模式。

APPSO 对本次对话进行了尽量不改变原意的编辑,以供读者翻阅参考👇

大模型是通往 AGI 之路的基石之一

智源研究院院长王仲远:

我也请教一下各位,是否相信大模型是通往 AGI 之路的一个基石,亦或者大家在实际训练大模型的过程中,发现它可能依然只是一个数据的压缩,那可能对于产业界是非常有价值的,但并不一定能够通往 AGI?我想听听各位的看法,植麟?

月之暗面 CEO 杨植麟:

对,我们比较相信大模型的第一性原理,就是通过不断地去提升这个模型的规模,就像仲远刚刚说的,它确实本质上是一个压缩。

但是这个压缩它确实是可以产生智能,然后你随着不断地去规模化这个模型,不断做更好的压缩,它能产生越来越多的智能。

当然就是肯定在这个过程中也会有很多挑战,比如说可能最大的挑战就是,有一些数据可能他并不一定有那么多,对吧?那在数据没有那么多的这个领域,或者说假设你最后要做出来一个可能比人类更好的 AI。

那你可能就根本不存在这样的数据,因为你现在所有的数据就是人产生的,所以我觉得可能最大的问题是怎么去解决这些比较稀缺,或者说甚至可能有一些不存在的数据。

但是我觉得规模化定律或者说大模型本身可能是没有太本质上的这个问题。

百川智能 CEO 王小川:

它(Scaling law)只是在逼近 AGI, 但是光靠 Scaling law,我的理解是不够的。所以在这里面的话,如果从第一性上讲,其实刚才这个亚勤也提到这个事情,就是需要有范式的一个改变。

(APPSO 注释:Scaling law 描述的是随着模型规模(如参数数量、训练数据量)的增加,模型的性能通常会得到提升的现象。)

Scaling law 只是看到的第一件事,我们今天还有一件事情大家比较忽略的,其实是把语言放到大模型的体系里面,把语言变成了数学本身。

语言其实把这个符号的这么一个主义跟连接主义之间产生了一个突破。所以除了这个规模以外的话,符号跟这种连接的融合,我觉得这是中间的一件事情。那么再往前走,还会有更多东西必须有范式改变的。

比如说今天大模型是靠数据驱动,一种学习系统能做压缩,但是反而像之前那类似于像 AlphaGo,一个能够叫思考性的系统?那它也会有这样的一个作用。

所以我的结论来讲的话,一个是我们到了 AGI 的时代。这个时代里面,我认为我们是能够有足够多的科学家进来,更多的资源进来,能够走向 AGI。

但是光是以现在我们公开,大家看到了这个 Scaling 这个事情是做不到 AGI 的。

智谱 AI CEO 张鹏:

其实要说那个大模型,它是不是说一个基石,首先同意小川说的,他肯定是基石,那是不是基石之一?这是另外一个问题。

所以这个问题其实也涉及到说,你怎么来定义这个 AGI。

其实刚才两位台上开复(零一万物 CEO)和亚勤(清华大学智能产业研究院院长)也聊到这个 AGI 到底怎么定义,其实也跟这个定义有关。但是站在我们现在看到的这个角度来说,我是觉得做人工智能的这拨人还是挺实用主义的。

所谓的实用主义,就是说咱们不看广告,看疗效这东西,看它能不能解决问题,是不是能不能真的像我们心中所谓每个人心中定义的 AGI 那个路径上,能够帮我们推进一步。

所以大模型到目前为止还是很有效的在推进这件事情。而且就像刚才小川说的,我们这个 Scaling law 还是在有效,还是在往前前进。

至于说它是不是能够帮助我们推到那个顶峰上去,我们现在也找不到这个答案。但至少我们相信说他在这个阶段还是有效的,我认为他肯定是基石,至少是基石之一,这个没问题。

面壁智能 CEO 李大海:

我个人是数学专业毕业的,所以我可能会比较严谨的去表达,我认为大模型一定是通往AGI这个方向上当前所有技术里面能走的最远的。

它能不能够直接到达。我觉得现在还有很多未知的因素,包括刚才提到的定义是什么?但我想提一个可能大家没有提到的点。

我觉得现在的大模型作为知识压缩,主要是在处理人的大脑的系统一的工作。就是我认为这种慢思考的系统二的去做各种各样的推理。

搜索空间里面去做搜索组合来完成一个任务,这样的能力我觉得是未来大模型可能要通过 agent 的技术外部化,或者把它内化为自己的能力。

这个是行业里面,我觉得大家需要需要去探索的。

像看待人类一样看待 AGI

智源研究院院长王仲远:

我们总在讨论 AGI,但似乎好像连 AGI 的定义,大家都没有广泛的共识。然后我不知道就是在各位的心里,这个 AGI 到底什么样叫 AGI?

月之暗面 CEO 杨植麟:

首先,我觉得 AGI 的定义是重要的,但是它不一定需要在现在被非常精确地,有量化的定义。

它可能是一个定性的,感性的东西,或者我觉得它最重要的一个作用,是能让社会,或者说所有人,能够对接下来要发生的事情有一个准备。因为可能也许这个技术的节奏会非常快。

我们如果能够知道 AGI 它是什么样的,能够某种程度上去定义它,我觉得其实是可以更好的去准备这个事情。

不管你是每个人的职业,还是说这个行业接下来可能会有什么发展。我觉得首先这个是重要的。

然后可能第二个就是说,在短期内我觉得可能是需要一些量化。因为如果你没有完全没有量化的话,你可能就没有办法去衡量你这个 AGI 的开发的进度是什么样的。

所以可能从短期的角度来说,本身也会是一个很难的问题,而且可能也是一个很大的挑战。

智源研究院院长王仲远:

所以植麟觉得,比如说我们需不需要有新的图灵测试,因为我们知道,如果按照传统的图灵测试,应该已经被大模型给攻克了。

月之暗面 CEO 杨植麟:

对,传统图灵测试,可能到现在已经不完全适用了。

因为即使说他现在通过了图灵测试,但是他可能还有很多事情,是人可以做的非常好。但是 AI 就是基本没法做了。

就现在还有大量这样的事情,所以我觉得这个不是一个很容易的问题,就是你可能需要去对这里面评估的维度去做很多拆分,比如说你可能会有不同的能力,比如说知识能力和推理能力和创造的能力,他可能就是完全不一样的。评估的方式会完全不一样,所以这个也是现在可能大家很多人在关注的问题,我觉得是非常重要。

智源研究院院长王仲远:

小川,咱们上次在央视对话栏目里面,其实你也提到,去年是智能纪元的元年,所以这智能纪元是 AGI 的纪元吗?亦或是你对 AGI 这块是怎么理解?

百川智能 CEO 王小川:

对,我刚刚提到今天四个元年,是因为我们掌握了这个 Scaling law,同时我们掌握了把语言变成数学,对吧?

这是重大的一个起点。当这个机器掌握语言,我觉得这是翻天覆地的一个变化。因为大家以前都在讲这个图片识别很厉害,无人驾驶也很厉害,对吧?

我可能调侃一下,就是说狗都会,这狗也可以自己导航,狗也会看图片,但是狗不会语言。

语言代表我们认知世界的一个大的一种范式。我特别喜欢刚才你这个问题,什么是 AGI 的这个定义,对吧?确实在全球里面很难有完整的一个这种共识。

大家都是学数学的,我相信我们得通过变换把它从一个空间换到另一个空间来做一个判断,换成另一种事物来判断。就跟咱们讲的保形变换一样的。

那么在我看的话呢,我会用一个大家可以评测的这个指标来看,在我心中是接近等价的,是什么呢?是能不能够去造医生。

能不能造医生,为什么是这么奇怪的题目?之前我们在谈 AGI 的话,一种首先理解把它当成工具在看,我认为这次 AGI 的首先第一个变化,它是能够开始有这种思考能力、学习能力、沟通能力、共情的能力,甚至有多模态的这种图片处理的这样的能力,对吧?

从他的学习范式的能力要求里面,我反而觉得我们是在像看人一样,在看它的,所以一种做法是说跟人是差异化看。所以大家共识的指标或者学习范式里面,就是在向人学习。

它数据来自于人类社会产生这种数据所以一直在评价里面,我是拿人的一个职业来跟他做这样一个比较。医生在这个所有的时间里面,相对而言,是一个叫智力密度相对最高的这么一个行业。

既需要多模态,也需要少幻觉,有效记忆。看 70 万字的病例,也有推理的能力,也有这种查文献的能力等等,对吧?所以我把医生跟 AGI 做比较,结果就是说做到医生是否就算做到 AGI 了。

然后我发现它这肯定有很多种声音的。比如大家觉得这个医生只是一个垂直领域。那这个医生比这个低。但是我说那你能造医生吗?

他说,呦,太难了,这里面有太多的这样的一个幻觉问题,有太多这样的幻觉问题。

刚才我们讲到的这种,它的推理能力对吧?这种不可靠。如果我们认为医生是比 AGI 低的的,医生都造不了,那咱们就别谈这个 AGI 这个事儿。

但是如果你觉得医生比 AGI 高,但是我们又讲这个医生只是这么一个叫做造人的各个种类中的一种。所以在我的这个逻辑里面,医生跟 AGI 来讲,我是可以基本画个等号的。

数学上有一个题,就是自然数和偶数哪个多?我们第一反应是偶数比自然数少,偶数是自然数的一个子集,对不对?每两个数只有一个偶数,但数据上应该知道他们是一样多的,因为每一个自然数乘以 2 就是一个偶数,它们是可以映射的,对吧?

今天我是把大模型,咱们行业上能共识的能都都可以映射到,对于这个医生的一个要求,你去硬是拿这个做一个标准,你就知道造医生就是个 AGI。

智源研究院院长王仲远:

大海,你被 cue 到了,作为数学家,你对于这个 AGI ,怎么去理解?

面壁智能 CEO 李大海:

我会尝试从经济学的角度来去定义 AGI,我觉得从经济学的角度讲,如果我们去执行任何一个任务,它的边际成本都为零,这就是我们理想中的 AGI 了。

但是这个又回到我刚刚说的,为什么我认为大模型走的最远,就是我相信大模型能够把这个边际成本一直往下降,可能会逼近于零。

但是这个过程中就像植麟刚刚讲的,很多时候需要我们在各行各业的产生一个飞轮,逐步的让模型持续训练,持续学习,然后让整体的成本降下去。

其实我们去年看到行业里面,大家去做大模型的落地的时候,很多的场景都还需要做微调,这个边际成本就很高。

我们相信随着模型能力的提升,慢慢的从微调逐步地只需要做 prompt engineering, 但慢慢的连 prompt 都不需要做,模型直接就问你说,你到底有什么需求,如果你讲不清楚,我来问你,对吧?

通过这种方式,我相信未来门槛会越来越低,成本会越来越低,低到接近于零的时候,我觉得 AGI 基本上就到来了。

另外一方面,我可能额外还想补充一个观点,就是我们现在大家都在讲怎么把模型做大。其实小川提到一个关键词叫智能密度。

其实我们觉得大模型的智能密度也是个非常重要的事情。就当有一天我们达到被 AGI 的时候,我们还要做一件事情是大模型的小型化。

就是我如果用一个 10 万亿参数的模型能做到 AGI,我能不能把这个 10 万亿的参数把它降到 1 万亿,把它降到 1000 亿。

对,这也是一个我觉得持续要需要去突破的事情,

智源研究院院长王仲远:

想请教一下张鹏,张总,最开始咱们做悟道系列,再在到后来咱们整个智谱系列这些大模型,你们最开始有考虑到它可能实现 AGI 吗?你对这个 AGI 是怎么去理解的?

智谱 AI CEO 张鹏:

其实你要说它是一个有一个很严格的定义,还是另外的什么东西。其实我更愿意相信它可能是我们的一种信念,是一个符号,它的内涵外延是在不断地变化的。

其实刚才提到的早期定义 AI 的时候,我们说怎么来检测这个系统,一般用图灵测试。但现在大家觉得这个已经过时了。

就是因为随着我们对技术的不断地演进,对这件事情的认知越来越多,然后越来越深。然后其实本质也同样的,AGI 这三个字母所代表的含义,实际上是不断的在变化,它是个动态的过程。

所以刚才植麟讲了,就说他其实是一个 balance 的事情。就是如果你把一件事情能够把它说得非常的量化,非常的清楚,内涵是什么,外延是什么,那这件事情也就那样了,估计天花板在哪儿,大家都能看得到了。

那现在的问题就在于是说,其实没有人能够把这件事情说清楚。

反过头来讲,就是说这个事情还有很多的空间,很未知的空间等待我们去探索。所以 AGI 对我们来说说,你可以把它定义成我们的一个目标。

那对这件事情,我们一直相信是说,当前我们的目标是说以人为参照,让机器像人一样去思考,这就是我们的愿景。

那这只是第一步。当然他刚才也提到说,机器的能力远不止人的这个水平。我们期待他可以出现超越人的这种能力。所以 AGI 里边我们会提到说,有这个叫 super intelligence,下一步它是否能产生超过人的这样的智能的水平?

那就是我们会不断地去更新迭代 AGI 的这个内涵和外延。

Scaling law 很性感,短期内不会失效

智源研究院院长王仲远:

植麟对 Scaling law 还是特别的坚信吗?就是它会继续在未来的这些年会起作用吗?

月之暗面 CEO 杨植麟:

对,就像我们刚刚说的,我觉得这个Scaling law没有本质的问题。

对,而且我觉得接下来可能比如说 3 到 4 个数量级,我觉得是非常确定的一个事情啊。

可能,我觉得这里面更重要的问题是说,你怎么能够很高效的去 scale. 然后你应该 scale 什么东西,就比如说如果你只是还是像现在就搞一堆这个网页的文本,然后再去 scale,我觉得可能就不一定是一个对的方向。

因为这里面可能就会遇到很多的挑战。比如说我们刚刚说的这些推理能力,它不一定能够在这个过程中解决。

所以我觉得这里面就是怎么定义 Scaling law,就是说 scaling law 是什么。

如果你是说我就沿着当前现在的方法,然后我去做 next token prediction,然后我再去 scale 很多个数量级,用跟现在完全一样的数据分布,我觉得他的上限是很明显的。

对,但是 Scaling law 本身它其实并不受这个东西的限制。本质上来讲是说我只要有更多的算力,然后这个模型参数变大,那我持续能产生更多的智能。

但这里面它其实并没有定义你的模型是什么样的。比如说它有多少个模态,它中间的数据是什么样的,它数据是你生成出来的,还是说我是可能还是用这个 web text,所以也没有规定你的这个 loss function 是什么样的。

就是你不一定是 next token prediction,你可能是别的 loss function。所以我觉得 Scaling law 是会持续演进的一个还是 first principle,我觉得是这样。

然后只是说在这个过程中,你要 scale 的方法可能会发生很大的变化。对,包括现在比如说像一样的库,一直在讲的这个世界模型,我觉得其实本质上现在的大语言模型,它是世界模型的一个特例。

对,所以你只是说先把里面,就是一部分给做了,但是你还能把可能更多的持续的去扩充训练的这个方式。

对,所以我觉得 scaling 是会持续,只是 scale 的方法会变化。

智源研究院院长王仲远:

小川,你对 Scaling law 未来几年还会持续发挥作用,怎么看?

百川智能 CEO 王小川:

对,我觉得 Scaling law 是一定会发挥作用,这个到目前没有看到边界,还在持续的发挥,所以看到美国也有了马斯克,对吧?号称要买 30 万片,这个 B100 还是 B200 来做。所以在这种情况里面的话,这个美国确实在这方面的这个认真程度,甚至包括投入程度是会远高于中国的。

因此在我看起来的话呢,我们在这个 Scaling law 之外,一定要去寻找这个范式上的新的一个转化。咱们就是讲数据算法算力这里面。

所以我觉得 Scaling law 他们在里面是明确的,就是在美国后面跟进的这样一个维度,不管是从我们的战略上去,还是从我们信仰上,我认为在 Scaling law 之外,都还有范式的这样一个变化。

就不只是简单的去 predict token,变成压缩这样一个模式,会走出这样一个体系,才有机会走向 AGI, 才有机会能跟最前沿的这一代技术里面产生这种较量的能力。

智源研究院院长王仲远:

张鹏,你对 Scaling law 呢?

智谱 AI CEO 张鹏:

我刚才在讲 AGI 这个定义的时候,其实已经表达了相当的观点。

就是说 Scaling law 这个事情,它本身这个定律,我觉得就是说到目前为止,人类认识的所有的这个规律也好,是这些物理定律也好,什么的也好,其实都有可能会被推翻的一天,只是看它的有效期是多长。

所以刚才也同意了,就是前面加一个定语的话,就是到目前为止,我们还没有看到 Scaling law 会失效的这样的预兆。

未来的相当一段时间之内它仍然会有效。当然这个所谓的会有效也是一个动态的概念,就在于是说它本身所包含的这样的一些事情,包括内涵,它会不断地去演进。

就像刚才小川说的那样,Scaling law 早期关注的其实就是简单的模型的参数量规模。对吧?那现在已经扩展到什么呢?参数量很重要,对吧?

你的数据量也很重要,数据质量也很重要,计算量就变成了一种计算量。所以你看到它的内涵其实也在慢慢的变化。

其实是随着大家对这个规律的认知越来越深,规律的本质越来越结实。所以你掌握这个本质,就能掌握说通往未来的这个钥匙。

所以基于现在大家对这个本质的认识的,我觉得至少在我们这样看来,他仍然还会起效,会是未来我们主力想要推进的这样的一个方向。

智源研究院院长王仲远:

然后我想追问一个问题,其实我们现在到像 GPT-5,之前传过几次说要发布,但似乎一直在推迟。

所以张鹏,张总,你觉得这个 Scaling law ,包括咱们大模型,如果我们从追逐 GPT-4 到再往 GPT-5 这样的方向去发展,现在的 Scaling law 是有出现边界效应吗?我不知道你们怎么看这个问题。

智谱 AI CEO 张鹏:

我觉得这个因素可能有很多种,包括刚才说的,传说的这个所谓的 GPT-4.5,还有 GPT-5 什么时候发布,为什么一直大家传了好几次都没有发布,我觉得这个可能里面的因素会非常多,就拿我们自己来做,来说这个事情的话,其实我们自己也在选择一个道路,不断的去遵循这个 scaling la 往前前进。

就举个例子,我们最开始,你也记得,就是我们开始做这个悟道的时候,就讨论过一个方案,我们是否去做一个稠密的单体模型,还是去做一个 MOE 的一个稀疏的一个多体的模型。

其实这就是当时我们认为说如何去满足这个 Scaling law 或者去遵循 Scaling law 的不同的路径。

但是到发展到今天这个地步的时候,你会发现这里边维度已经很多方面去做这样的一个事情。

所以同样反过来看这个问题的时候,你会发现其实这个难度又复杂度又上升了。不是简单的说追求这个参数量上去就行的,难度也变大了。

所以我理解想要实现,比如说 GPT-5 或者在下一代,我们自己想要实现下一代模型,这个里边的技术的可能性要探索的这个东西还是非常多的,也是一样的,就正反两方面。

智源研究院院长王仲远:

大海,面壁智能在轻量级的这种大模型上,你认为 Scaling law 也是有效的吗?

面壁智能 CEO 李大海:

我认为 Scaling law 是非常重要的。

对,我也非常认同张鹏的意见。我们觉得 Scaling law 其实就是一个经验公式,是整个行业对于大模型这样一个复杂系统的观察以后的一个经验总结。

这个经验总结会随着我们对于模型训练工作过程中的做的实验越来越多,认知越来越清晰,会有更加细的颗粒度的认知。

比如说我们自己就会发现,除了前面说的这些维度之外,在模型训练中的训练方法本身对于 scaling law,对于智能的影响也是比较显著的。

那这个显著的影响在我们固定住参数规模以后,其实就会变得非常重要。

因为现在大家觉得参数规模是能够不断地往上 scale 的,它是低垂的果实,只要扩就可以了。所以就觉得没关系,我们先去做这个,先把上往上放大。

但是一旦我们固定说,我们要让端侧的芯片能够去支撑这个规模的模型,能够去做到足够好的智能。那么数据的质量,训练的方法,这些都变得非常重要。

开源,是模型生态的共赢进步

智源研究院院长王仲远:

对,然后大海,我们最近其实也关注到一个非常热门的新闻,就是关于开源社区的一件事情,像 Stanford 他们的这个团队,确实抄袭了咱们的 miniCPM,那我不知道你对这个事件怎么看呢?

面壁智能 CEO 李大海:

对,最近这个事情在国内引起了非常大的反响,我们也完全没有想到我们的这个工作会以这种方式出圈,这个挺惶恐的。

在这里我想也想澄清一下,我们自己认为,这其实是海外的个别学生组成的一个小团队,或者说,做的个人行为,它不代表任何更大的,比如像 Stanford 这样的这个学校。

因为事件发生了以后,Stanford 系主任以及整个西方的一些同行,其实也都表达了非常价值观,非常正的一些观点。

另外我们因为这个事件,我们会更加坚定地相信开源的力量。其实像这样一个事件,它的发现也是靠我们开源的人心的参与者发现的。

并不是我们自己发现的,就是我们是 5 月 20 号把这个模型开源出来。到了 29 号的时候,这几个本科生小朋友,他们就做了一些非常简单的工作。

在我们的模型上做了一个高斯叠加,叠加一些高斯噪声,然后就号称是自己的模型。

当然他这个模型一下子变得很受欢迎,主要原因是因为他们宣称这个模型的多模态能力是跟 GPT-4V 和 Gemini pro 完全对标,但是参数只有后者的 1%,并且只需要 500 美金就可以训练出来。

那前两项是真的,就我们的模型真的是有这样的能力受欢迎,但是 500 美金是训练不出来的,还是要花很多的钱。

在这个就是 5 月 29 号发生这个事情,其实一天之后,就我们社区里的热心的参与者就发现了这个事实,去把这个事情曝光出来。我们能够尽快的知道去纠正的这样的行为。

所以我们看到开源的力量是很强大的。

这里面是多层次的,不光是有做原创工作的人,还有很多的参与者,他们会在里面带来贡献反馈。这些也都是对开源这个生态非常重要的一个组成部分。让我们觉得持续的做开源的贡献,能够给公司带来正向的收益。

志远(面壁智能联合创始人),也是非常坚信开源的力量。

所以其实在今天的这个报告里面,我们也向各位报告。我们过去一年在开源社区发布的各种的模型。其实我们的下载量也还是非常大。

智源研究院院长王仲远:

其实百川也把自己的百川 1、百川 2 对外开源了。我不知道啊,当时咱们百川想把这个也花了不少钱训练的大模型对外开源的一个考量是啥?

百川智能 CEO 王小川:

我觉得是在市场上,第一个是有这样的一个需求,然后因为在当时去年,我们大概是在九月份就开了第二版,然后六月份开了第一版。

那么在去年的时候,这个应该叫中国是快速入场做大模型,但是事实上的话,不仅闭源跟美国是落后的,开放里面我们大家都没做到。

开源上的话,当时 Llama 开源了。所以在美国其实这个既有大的闭源生态,也有开源的这样一个生态。

中国在当时在当时其实对大模型,是处于一种大家热情惶恐也需要快速入场的。

所以我认为这个开源的话,能在市场上产生的蛮好的影响力,做一个把自己当时最好的模型开源的这样一个认证,并且开源的这么一个商业化的厂商,得到市场的很多的认可,也给我们做了很多的这样的一个好的 credit。

对我们是挺大的鼓舞。不管最后人才的储备资本的这种关注,也算是给行业交了一个投名状,对吧?

我觉得这是有历史上他当时的这样一个意义。但当时我就看看,还有一个心态的话,我们也看到模型会快速的进步的。

所以在当时我们觉得开源是不是把自己的这个底裤拿出去。所以这个就没有竞争力,我觉得不会的。因为在我们认为这个模型生态里面,大家今天我们最好的,可能在明天就是一个不够好的模型了。

所以我们从商业竞争里面,其实也没多什么大的损失。因此我觉得既有贡献又没有这样的一个降低我们竞争力的事情,就毅然做了这样一个决定,所以符合了市场预期,也给公司带来了这样的这种声誉。

为什么这个事情做的是蛮成功,今天其实有更多的公司在里面,也是做各方面的这种开源。那是中国这样的一个生态,在追赶美国里面,包括我们自主产权里面,我觉得大家共同在做这样的一个贡献。

我也希望这个生态能够大家越做越好。

AI 应为文明延续,而非毁灭人类之手

智源研究院院长王仲远:

随着整个大模型的发展,确实 AI 安全问题也是被不断地讨论。各位都是做企业的,我想了解一下,就是说 AI 安全现在在我们大模型的产业界,怎么去看?是一个当下最急迫的问题吗?

月之暗面 CEO 杨植麟:

对,我觉得 AI 安全是非常重要的,他可能不一定是当前最急迫,但是是一个我们需要提前去准备的事情,因为可能随着模型的进展,Scaling law 本身它的发展,是说每 N 个月吧?你可能就是算力乘十倍。

那这里面你的智能会得到提升。我觉得是一个逐渐去适应的过程,所以他不一定是说当前最大的矛盾,或者最重要的最紧急的事情。但是他肯定是长期储备。

这里面我觉得最重要的可能两个方面,就是说你的模型本身,它可能会因为你的这个用户,他本身有一些恶意这个意图去做一些他可能本来不应该做的事情。

比如说像现在有这个研究去做这种 prompt injection,就是你可能你有 long context 能力,但是你可以在 prompt 里面去注入一些不太恰当的意图。然后可能这些我觉得需要去关注。

然后第二个就是说,你的模型它是不是会有自己的这个 motivation,所以我觉得这个是跟这个训练方式相关的,包括就是你能不能在这个模型的底层去注入宪法 ,能够去框定他的行为。

就不管用户给什么样的指示。或者不管他自己的 channel thought 是什么样,他都不会违背这个宪法。

我觉得这个是很重要的。

百川智能 CEO 王小川:

对,我觉得安全的话,有不同的内涵和外延。所以我想提三个安全相关的事情。

第一个事情就是这个意识形态安全。有一个大家都知道做 toc 有工作的这样一个服务。所以作为一个中国主权的这么一个大模型,在意识形态上跟这个国家意识能够保持一致,这是大家的一个基本功,就是每个模型有他们的这种价值观,我们有我们的价值观。

所以这个安全的话,我认为是对一个民族,对一个社会负责的那件事情,安全是个底线,我们大家都得把它给做好了。

第二个安全是大家这个空谈比较远的一种安全。就是说这个模型是不是把人类毁灭了,以后人就没了。然后机器掌握世界了。

这里面的话,我其实内心来想不希望发生的,就像核弹一样的,把这个人类文明给搞没了,就使得我们人类发展了好几千年,好不容易有这样一种智慧结晶,然后模型把地球搞没了。

这个事情来讲,我觉得是不发生的。但是至于这个模型,他是否比人类更聪明,能够取代人做事情,我觉得这是个鼓励的一件事情。因为从人类文明里面,我们现在每个人都知道这种生孩子。然后这种发展技术继续我们的生命和延续我们的文明,这才是重要的。

人的肉身在中间,每个人都会死亡的。我觉得大家今天不回避这个问题,所以这个技术能够跟我们一块去拓展人类文明。我觉得这件事情是有意义的,并不是限制这件事。

所以在去年我们下场的那个时候写了一封公开信,我还想着 AGI 帮助我们繁荣和延续人类文明。我把这个事情当成一个目标,这样这样让文明能够更好的延续,而不是说只是叫机器人(10.490, 0.21, 2.04%)帮我们努力,当我们工具。

我觉得这一块在安全里面,我可能在中间是一个文明为标准来看待它,这是第二层的这么一个安全是理想的色彩。

第三个安全就是比较现实的,我刚才提到说 AGI I怎么评测。然后当我跟很多人聊的时候,拿 AGI 去做个医生,那好难,对吧?医疗都搞不定。

如果连这个都做不到,那他能力如此之弱,我们就不要想它是什么颠覆人类,还有这么复杂的事儿。

所以现实里面我觉得,近期里面还不存在这个安全的问题。

所以我觉得这个在现实里面的安全,我们就放在一个意识形态安全,在远期里面发展文明。而当前还是努力把他的能力给提上去,还没碰到今天的一个人类文明安全的边界。

智源研究院院长王仲远:

好,谢谢小川,张鹏,你对AI安全怎么看?

智谱 AI CEO 张鹏:

我们智谱其实一直很注意这个相关的一些事情。尤其在 AI 安全方面。因为我们应该前一段时间还签署了一个 AI 安全的前沿的人工智能安全的承诺是吧?

当时是应该是有 15 家企业,有一些 AI 相关的企业,然后来自全球各地各大洲,然后一起签署了这样一个负责任的 AI 的这样的一个承诺书。

其实我觉得安全只是其中这个所谓的一部分,就是我们叫负责任的 AI。那负责任的 AI 这个事情就比安全要更大,其中的一块就是包括刚才小川师兄讲的这三个方面的这种安全。

但其实还有更多的方面的问题,就是我们如何来保证,或者说如何来努力让这个技术是真的帮助社会,帮助这个地球,而不是说去为恶。当然这个事情,你很难说,人类的这个两面性,对吧?很难说你们保证没有人去拿这个事情去作恶。

其实现实社会当中,已经有人在发现,也发现有人在做这些事情。这个事情永远是就是防守比这个破坏要难。所以这个需要大家一起共同来努力。

我相信这个事情的更重要的一个意义并不是那能拿出多么安全的这样的一些技术方法,或者是这样的一些管理的规定去约束大家不要去做这件事情。

而是在于说增强大家对这件事情的了解,对这件事情的这种统一的这样的一个认识,大家能够坐下来正面地面对这些问题,摆到桌面上来,希望大家更多的人参与这件事情来一起讨论,那总有解决问题的办法。

面壁智能 CEO 李大海:

我比较同意。前面各位老板说到的这个观点,我认为现在这个阶段安全,主要还是聚焦在基础安全跟内容安全这两个方上。

就是我们把模型训练好,权重是固定的,你的推理其实不会影响权重,你的权重都是在线下再去持续的阶段去训练的。

有一天当我们把模型部署到机器人,输出到这些,我说的终端上,然后他能够去动态地去更新自己的权重了以后,我觉得安全问题才会变成一个非常重要的问题。

价格战可以打,但不能亏本

智源研究院院长王仲远:

在座的都是企业家,对于企业而言,可能虽然也很关注 AGI,但可能也更关注 ROI(投资回报率)。

请教一下诸位对于这个近期大模型的价格战的一个看法。

是有利于大模型的普及,还是实际上这种过于激烈的价格战并不利于企业的发展。尤其我们知道大模型还是需要有非常持续的投入,还在研发的过程,对吧?

还是企业要有正当的这样的利润,才能够进入到一个持续良性的一个发展。

月之暗面 CEO 杨智麟:

对,我觉得这是很好问题。我觉得最终如果我们把时间线拉足够长的话,其实最终还是会回归这个价值本身。

我自己有三个判断,第一个就是说很重要的一个点就是,其实在接下来比如说我们去看这个算力的投入,你可能投入在推理上的算力,在某个时间点之后,它应该是可以显著超过训练的这个算力。

我觉得这个是标志,就是说你的价值开始得到释放。所以你前面用来训练的这些这个成本,它其实是可以很大程度上被覆盖。

然后可能第二个很重要的节点,如果从 C 端的角度来说,我觉得是你的推理成本可能会显著低于你的获客成本。

对,所以我觉得他可能从商业本质上来讲,可能不会跟之前的各种商业模式会有非常本质的区别。

我觉得很重要的是第三个因素,就是我们今天其实 AI 在整个人的这个工作里面的占比,它还是很低的。它可能是1%,也就是说人做的事情要远远多于 AI 做的事情。

所以我觉得最重要的第三个点是说,AI 本身做的事情可能是在会在某个时间点超过人做的事情。到那时候,它就可能会产生新的商业模式,他可能不是像今天说的,在 B 端用 API 去做价格战,而是可能他是一个普惠的 AI。

同时可能是根据它的价值,从这里面去分层产生的这个商业模式。所以我觉得可能这三个点是会是改变这个商业模式本身。或者你刚说 ROI 这个问题的一个很重要的趋势。

智源研究院院长王仲远:

小川,你对近期大模型的价格战怎么看?

百川智能 CEO 王小川:

我先说结论,今天价格战对于这个中国发展大模型特别好的事儿,现在结论,我是积极看待这样的一个事情。首先一个视角就是很多时候这个好不好,你得看是对单个的公司,还是对一个群体,一个整个市场?

因为价格战的话,通常这是个市场行为,是一个竞争的导向。

我觉得至少带来两个好的后果,第一个更多公司,更多人能用上大模型了。很多企业之前是不懂这个的,就变成了普及运动一样。

就很多公司他可以免费或者便宜地开始做 POC,开始去使用大模型,使得中国能够迅速去快速普及,不管是个人还是很多企业就就入场了,这对整个市场是第一个好处。

第二块的话,其实在中间我觉得之前还有很多浪费,因为大家恐慌的时候,大家不知道大模型为何物。我就观察到很多企业但凡有点技术能力,都是自己要训练大模型,然后自己拿卡,甚至跑去找我们说怎么联合训练?

这块明明他该是大模型的用户,消费者,大模型的使用方,但都想转型成为一个大模型的供给方,要提供一个自己的大模型,这种情况下,其实带来很多的人才、资金和这种社会的浪费。

但有价格战之后的话,很多企业就开始清醒了。我干嘛非得去做,做完了,我到时候竞争优势又是在什么地方,他就退回来说是成为大模型的用户。

我觉得这个浪费也会减少,所以这既然能带来一个启蒙,也能带来对社会资源的消耗。更多的企业在里面,就是能够有自己定位,对吧?把自己给做好,我们不需要一千一万个大模型。

在之前如果没有价格战的时候,中国可能真的是上百上千个大模型在进行,那么这样市场的分层就能做好,每家都能够受益,这种竞争力就能起来啊。

智谱 AI CEO 张鹏:

我基本上是赞同小川这个观点的。

而且这个事情,其实有人跑过来跟我们说,说你们是这轮价格战的发起方之类的。

我说这个子虚乌有,其实在那个之前,我们一直秉持的一个概念,其实就是你说的那个 ROI,就是给用户带来最大的收益价值,然后用我们的技术,用我们的创新去极力的降低大家的使用这个技术的成本。

这是为了让这个更多的普及,让更多的人能够享受这个收益。

所以我们当时推出的这些,其实在很长一段时间里面,我们的价格都是行业内都算是极低的,因为是我们的技术能够确实能做到那一步,能把这个中间的这个空间成本释放出来,当做大家的收益,帮助大家去把 ROI 算出一个大于一的数值来。

当然,这件事从宏观角度来讲,肯定是说对于整个中国的这个大模型产业是有利的,让更多的人来使用,让更多的人来把这个真的把大模型当做什么呢?

当做我们一开始提到的那件事情,就是它会变成这个基础设施。这是什么意思?就是非常便宜,随时就可以用。你不用去特别的计较,说在这个事情上我要投入特别的大,然后收益是什么?

当真的有一天 AI 的能力,大模型的能力变得像水电这样的基础能力的时候,其实这个时候又对我们来讲,企业来讲是一个发展的空间,这样更好的发展态势。

所以这个也是我们一直在坚持做的事情,包括最近 20 号我们发的新的这个模型,它真的是把成本压到我们都不好意思跟大家报价的。

那你以前看报价都是 1000 token 多少钱,是吧?几分钱,没有比这个更小的单位了。人民币里头就几厘,那该怎么办呢?把单位变成 100 万 token 多少钱?就他已经到了这样的一个地步了。

所以我是觉得这件事整体上,大的是有好处,但是也要注意的就是说不要去过多的关注这件事情,过多的宣讲,宣扬这件事情。

商业上肯定这件事情是说你去牺牲企业的短期这个,我们比如说成本也好。什么就亏本做买卖,这个不是一个正常的商业逻辑,这个肯定是只能持续很短的时间,真正还是要回归这个最终的用户价值、生产力价值上。

智源研究院院长王仲远:

大海,咱们在端侧的模型会面临价格战的困扰吗?

面壁智能 CEO 李大海:

其实我们做端侧,就是看到了端侧更早能更快落地的一个可能性。

最近有一个机构做过一个调研,发现说全国 10 亿用户的手机这个端侧的算力,差不多相当于 100 万片 H100,这个是个非常夸张的一个数字。

如果这些就是不同的手机上的这些算力能够被好好的利用起来。其实我们很多的应用就可以落地了。

当然这个里面现在这个一定是,包括现在到未来都需要端侧模型跟云侧模型好好的协同。

然后这个是端侧有端侧的优势,它的优势是隐私性好,然后更可靠。但是,云上的模型肯定能力要比端侧更强。

所以怎么把端云协同好,我觉得这是一个后面我们要跟所有其他的模型公司一起要去协作的事儿,然后我也非常同意前面大家说的观点。

我自己的看法呢,我觉得当前的这个价格,所谓的价格战,多多少少有一些营销的成分在,但是我相信未来一定会比现在这个还要便宜,并且大家都有利润等等,这才是健康的方式。

版权声明:除非注明,否则均为本站原创文章,转载或复制请以超链接形式并注明出处。如若转载,请注明出处。

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。


一共 0 条评论