是全村宿愿还是智商税开源模型

2024-11-14

大模型的场域，被开闭源智能地划分为两个营垒。自此，开闭源之争的硝烟不时盘旋在大模型的上空。

从奥特曼颇为有力的辩称：OpenAI的Open指的是人工智能成绩的宽泛共享，而非模型的开源。到李彦宏含糊其辞的断言：开源模型或许是一种“智商税”，随着期间的推移，开源模型只会越来越落后。开源模型在商业形式上的断裂及性能的落后不时饱受诟病。

但是，Llama 3.1的横空入世给开源注入了强心剂。有人说，Meta的继续开源是对开源唱衰论的最有力还击。周鸿祎也站进去说，大模型不该沦为少数厂家的赚钱工具。

为了能开掘这场开闭源之争的更多细节，AIGC实战派约请了白鲸开源CEO 郭炜、前神码CIO 沈旸以及湖北国度运行数学中心副主任程戈，深化讨论了“为什么市面上头部AI产品依赖闭源大模型？”“开源是不是比闭源的老本更高”等话题，力求厘清开闭源之争的这一争锋点——开源大模型，究竟是全村的宿愿，还是智商税？

•Meta的开源战略，其关键目的是争夺消息入口，而非商业授权带来的支出。开源模型或许有潜力无余的疑问。

•大模型的参数还不够大。假设以人脑的神经元作为参考，能成功AGI的大模型，其参数规模或许要求到达万亿甚至十万亿级别。

•开源的商业形式尚未成熟。关于To C的AI产品来说，模型性能的强劲差异都或许会影响到最终的用户体验。

•开源模型所要求的微调、部署等额外老本，只要能从垄断性的行业中收回时才正当，所以适宜医疗、金融畛域的B端客户。

•开源大模型的size肯定是有体量限度的，思考到企业部署和运转模型的老本，预计开源的“爆点”将在100B左右大小降生。

•目前的开源模型还不是真开源，不可调动整个社区的力气。开源的外围在于改变能够被奉献回抢先，从而一同打造更弱小的工具。

经过整顿的采访内容如下。

1.开源顶流“刚”得过GPT-4o ？

最近Meta公司开源的Llama 3.1 405B的模型能不能刚得过GPT-4o？模型的实力终究是怎样的，如此宏大的体量会不会在实践部署时遇到应战？

沈旸: 咱们看到这个参数的时刻，就丢弃部署了，知道必需跑不起来。不过，我以为这个size的商业化潜力很大。假设是一个7B参数的小模型，企业很容易成功私有部署，模型厂商很难赚到钱。但关于405B这样size的模型，普通企业很难搞定，必要求借助云服务，这是一条关键的营收起源。

Llama和GPT，商业逻辑是不一样的。Meta的开源战略是出于对流量入口的争夺，就像移动互联网的时代，安卓经过开源以反抗苹果一样。

每当Meta开源新的模型，股价就会上扬，这说明资本对其商业战略是认可的。但Meta能否真的能到达其商业目的，我是会画个问号的，对B端用户来说，开源模型或许不可齐全保障其数据安保；对C端流量来说，Meta能否能够经过吸援用户并将模型封装成优质产品，还有待观察。

值得留意的是，与移动互联网时代不同，大模型作为后盾服务，API的切换相对容易，用户和服务商粘性不强。所以我担忧我对Meta的开源战略或许潜力无余，我想他们关键目的还是抢占消息入口，而非商业授权带来的支出。

我自己搞开源10多年了，据我观察，开源名目的成熟普通要求三到五年的期间。如今就断言大模型的开源名目能不能战败GPT-4o或许为时兴早。

首先，大模型的热潮虽然让Llama等开源模型广为人知，但它们的产品外形和未来方向实践上还未确定。其次，我不以为大模型自身是一个产品，我感觉它更像是数据库这样的基础组件。不同的模型可以类比为Oracle、Postgres或MySQL——它们自身并不间接处置业务疑问，而是作为构建其余运行的基础。

那咱们再往上一层说，开闭源生态，目前各处于什么样的形态，哪个或许更占优一点？

我说一个跟大家稍微不一样的观念，我以为大模型自身不那么关键，谁把握数据才关键。模型跑分高不代表在实践的运行场景中能满足用户的需求。

为什么手机百度里的AI搜查助手经常使用频率那么高，能以80%到90%的准确率极速回答疑问，就是由于有百度的数据加持，让你极速取得你要求的数据，豆包和元宝的长处也在于此。

程戈:我想补充一下具身智能畛域的消息，在这方面我感觉开源的市场会更好一些。具身智能假设要成功离线性能，肯定要求在开源基础上启动开发，并对模型启动精简，使其体量足够小，能成功家政等特定场景中的义务就可以。

开源生态的话，曾经在静止布局方面地下了权重，无需再付出预训练的老本，只需去做微调就可以了，能够很好的降落老本。

2.“模型先变小，才干继续变大”？

如今AI畛域有个结论说，“模型必需先变小，才干继续变大”，教员们怎样看这条法令？

不能说这个法令不对哈。但是，大和小是模型的两个不同档次，是并行的，实质是取决于不同的运行场景。

我还是以数据库的开展举例，在早期，大家做数据库也是拼命做大。像IBM的DB2这样的大型数据库或许要求占据整个房间，而随着技术的提高，它们逐渐增加到机柜甚至单个主机的规模。同时，也发生

了针对特定场景优化的小型数据库，比如运转在手机或电脑中的数据库。

我感觉大模型的开展也会是双向的，而不是所谓的“先后”。处置通用疑问还是要求大模型，详细到一个详细疑问，例如智能眼镜的日常交互，肯定是小模型更适宜。

更大模型的推出速度如同在放缓，比如GPT-5的延期。

大模型的迭代速度慢。但是，LLM畛域的“军备比赛”尚未完结，前面必需还有更大的模型。

回到这个结论自身，能否暗示了如今的大模型训练遇到了数据、算力等方面的瓶颈，要求采取蒸馏等方法先获取小模型，才干继续开展？

我感觉模型的参数还不够大。假设以人脑的1000亿个神经元作为参考，现有的AI模型参数量与之相比还相差甚远。假设AGI能做到在各种义务上逾越人类，参数规模或许要求到达万亿甚至十万亿级别。

在到达这样的规模之前，咱们都在探求AI大模型的天花板。由于transformer架构是个概率模型，只要当咱们波及到这个极限，等那时咱们才会思考经过蒸馏等方法来增加模型规模，看能否能够在增加参数的同时坚持或优化性能。

例如下一次性发的4050B模型，跑分只比405B高一分，这个时刻就应该思考往小里做了。总的来说，这还是一个探求的阶段，未知空间还很大。

无关数据的疑问，我团体感触是数据还远远没有耗尽。目前大模型学到的都是外表的常识，就像三体人学习人类一样。经过挑选的数据，使得模型都是中立的“伟光正”。就像当天的这场直播，咱们会有观念的抵触，之后才有讨论、压服和决策，但目前的大模型还没有准许被“喂”不同立场或许是“人格”的语料。

程戈:参数规模，关键是两个要素选择的。咱们说的“智能涌现”，是说随着参数扩展，模型的性能线性优化，但抵达某一点后，性能优化会十分快。但是，假设要再进一步，则要求更高品质的数据。而目前，带来的消息增益是最多的数据曾经消耗的差不多了。

其次，多模态数据的引入虽然带来了参数规模的增长。但是，视觉数据跟人造言语数据相比，噪声太多。在这种状况下，单纯参与参数规模带来的老本收益比将逐渐降落，因此咱们或许不会继续自觉参与参数规模。另外，端侧推理的需求也影响了模型规模，在本地能run的模型隐衷性更好，这使得现阶段小模型的涌现和盛行成为人造。

3.头部产品依赖闭源模型？

如今AI的头部产品，简直都是依赖闭源大模型的。开源模型是不是关键面向B端和学术侧？为什么会发生这种现象？

闭源大模型曾经有了自己的商业形式。而开源在这方面还未成熟，或许要求三到五年的期间，才干真正进入良性的成长周期。

以安卓为类比，它也是做了很多年才开局有支出的。

目前，闭源模型在To C畛域用的更多，由于它们有流量，能够吸引投资人，取得少量的资金支持。而开源模型虽然在To B上有所运行，但不如前者宽泛。在To B畛域，场景适配的关键性远超越模型自身的性能。许多海外的SaaS服务，依然在调用闭源模型的API。由于开源模型还要求自行部署、训练和优化，这关于企业来说是额外的投入。

沈旸:目前为什么闭源模型更受欢迎呢，我感觉可以从以下几种商业情形思考：

首先，关于想做初期POC（概念验证）或企业外部运行来说，经常使用闭源模型的老本十分昂贵。大模型云调用的形式省去了配件老本，经过按需付费（如按token计费）形式即可。

其次，关于指标是做到头部AI运行的用户来说，为了谋求效率和性能，也会偏差于驳回闭源模型。

最后，就是我刚才提到的，开源模型肯定是个“伟光正”的大模型，这使得AI在内容上有过滤，或许在商业效果上打折扣。

假设要说开源大模型的未来，我感觉关键在大型企业出于数据安保思考，必需启动本地部署的状况。但是，在这种状况下，模型的size肯定是有体量限度的，要能统筹模型的运转和老本等疑问，我预计范围在100B左右。

我感觉这是模型不同的商业形式所选择的。在C端市场，即使是纤细的性能差距也会在客户体验中被加大，导以至用开源模型的产品在商业竞争中处于劣势。

想象一个B端企业驳回开源模型，其竞争对手经常使用闭源，模型之间或许只要5%到10%的效果差距。但对普通用户来说，他们并不关心这一点点差距，因此用户体验成为了竞争的关键。只要当开源模型的才干到达与闭源模型相似的水平时，两边厂商才会驳回并提供应中小开发者经常使用。

为什么是如今大家看到开源在B端和学术界受欢迎？B端是由于许多行业的竞争才干起源于其私有数据，为了包全商业利益，哪怕性能逊色些，也不得不用开源。而学术界的钻研和试验要求，与闭源模型的黑盒个性间不适配，不满足学术钻研的透明度和可复现性。

4.经常使用开源模型，老本未必低于闭源？

接上去咱们聊聊开源模型的老本，由于还要求投入人力做微调，在实践的消费环境中兴许不如闭源更经济？

开源之所以贵，就是大家想去做微调，只需你丢弃了这个想法，它的经常使用老本是极端低的。

例如，假设你想将一个通用的开源大模型调整为特定于金融畛域的模型，这十分难，更好的做法是期待金融畛域的大企业把这个模型开源进去。尽量不要自己做微调，更为经济高效。

但开源模型的价值不就在于大家可以自己做微和谐训练吗？

做个比喻，我就感觉开源模型比作一个中专生，它或许不如闭源模型那样曾经到达大专生的水平，但开源模型的长处在于它的可塑性。你可以经过微调来传授它专业常识，或许经过规定来指点它，使其顺应特定畛域的运行。

但是，无论驳回哪种形式，开源模型经常使用的期间老本肯定是大于闭源模型的。假设你想在短期内做一个产品，经常使用闭源模型是肯定的。说瞎话，目前的开源大模型是喜好者，晚辈级大企业的玩具，普通企业很难入场去用。

假设程教员做一款AI产品，会选用开源还是闭源？

开源跟闭源的选用，它跟最终的产品外形是相关的，而不是便捷的依据To B 还是To C来选择。

假设我面向的是行业用户，例如医疗畛域，我会选用开源模型。由于在这种状况下，我积攒的医疗数据是行业内的竞争长处，而其余医疗巨头把模型开源的概率十分小，由于这不合乎他们的商业利益。因此，我会将开源模型与我的畛域特定场景和数据联合起来。

但假设我的产品是基于一个创意idea，只是用大模型来为C端用户提供增值服务，那么我选闭源。开源模型虽然省去了预训练老本，但参与了微调、推理及保养的老本。这些额外老本只要能从行业垄断性或竞争力中收回时才正当。

5.开源模型，是全村宿愿还是智商税？

薛彦泽: 李彦宏近日提出“开源模型都是智商税”，包含月之暗面的杨植麟也说开源只是To B的拓客手腕，怎样看？

用刚才的比喻来说，如今的开闭源放在一同比，就是用安卓1.0对打iPhone 3GS，如今看着开源模型还比拟弱，未来谁赢谁输尚未可知。

但我倒是不赞同将开源模型粗犷地当做"智商税"。开源模型，虽然没有经过商业化打磨，但有或许像早期的安卓系统那样，领有生动的社区和多方介入，能够极速迭代和改良。

疑问是，如今开源模型我感觉不是真开源。真正的开源是能够取得正反应的，应该包含代码、数据和训练方法的片面放开，准许用户发现疑问并做出奉献。如今开源模型不是这样的，短少数据和训练方法的放开，不可取得实质性的反应和改良。

我和阿帕奇基金会成员讨论过，了解到开源模型的规范正在制订。只要当这些规范确立后，咱们才干深化讨论什么是开源模型。此外，虽然有些企业基于开源模型启动开发，但这些改变往往不可反应到原始模型中，这限度了开源社区的肥壮开展。开源的外围在于改变能够被奉献回抢先，从而一同打造更弱小的工具。而如今的开源大模型还只是一个散发渠道。

首先来说，李彦宏说“开源模型都是智商税”的时刻，肯定是有其特定背景的。过后提出这一观念时，国际还没有发生70B参数级别的开源大模型，过后开源模型的性能与闭源模型相比差距很大，简直不可经常使用。因此，很多公司对开源模型启动一些便捷的变革，而后提供应企业，这或许是他所批判的行为。

但以当天的状况看，这一观念曾经不再成立。无论是国际70B参数的模型，还是如405B这样的模型，性能曾经十分凑近闭源模型，推理老本也相差无几。

至于未来谁更弱小，我以为这与开源或闭源没有间接相关，而是看谁砸的钱更多。例如，假设Meta 能投入100亿美元，而百度只能投入10亿美元，那么投入更多的公司无论是开源还是闭源，其模型性能都会很强。

李彦宏的观念有肯定的情理，特意是在过后国际发生了所谓的千模大战，以及许多基于开源模型的小规模微调产品，这些产品在性能上很难逾越闭源模型。

不过，周鸿祎说大模型不应该成为少数厂商的赚钱工具，我也赞同这个认识。归根究竟，这和他们各自的商业形式有相关。

如今，不同企业依据自身的长处启动差异化竞争。例如，百度应用其在搜查畛域的数据积攒，而其余公司比如字节则或许应用自己弱小的内容消费生态。这些企业都在走差异化路途，借助自己在生态上的积攒，让AI的价值最大化。

不过，市场上的通用大模型最终不会容下太多竞争者——就像手机操作系对立样，市场最终只会留下少数几家。这将是一团体造选用的环节，由市场选择哪些模型能够生活上去。

模型开源 AI

<<AI招聘时代下的红海竞争战略万码科技开创人周媛

做一款AI社交运行名目牵头人应该忙什么>>

是全村宿愿还是智商税 开源模型