浅谈大模型开源和闭源开源闭源争执不休

2024-11-15

写在前面

前一阵子的开源和闭源之争炒的比拟炽热，之前不时想写点什么，由于太懒就没写，然而最近开源模型真的太火爆了，前有Grok-1、Mistral-8x22、Llama3，后有Yi-1.5、Deepseek-V2、Qwen1.5-110B， 开源模型如今真的卷到飞起。

当天便捷聊聊上方的几点内容，欢迎大家拍砖，给出不同认识：

开源模型有哪些长处

团体以为， 开源大模型是让大模型行业卷起来的根源。

在ChatGPT刚刚进去的时刻，业内满是焦虑；在Llama开源之后，业界满是兴奋，由于更多人看到了光。

开源的长处重要是人多，或许有人会反驳说AI须要高精尖的人才，但老话不是常说三个臭皮匠顶个诸葛亮嘛。（很多大佬其实也是没有什么资源，从头预训练的资源消耗真的太大了）

人一多，点子就多，就会衍生出很多大模型关系Trick，就像如何启动高低文裁减（NTK、YaRN、LongLora等）、如何小代价启动模型Merge获取更大更好的模型（SOLAR、Llama-Pro等）、如何更好更高效地启动人类偏好对齐（DPO、ORPO等）等等等。假设没有好的开源模型，很多研讨兴许就没法涌现进去。

更多人涌入到大模型关系研讨中，总会给大模型的开展带来踊跃的作用。闭源大模型团队的人也可以从外界吸取一些方法，来进一步优化模型自身成果。

随着微调名目标开源、部署框架的不时开源、提高，如今很多中小企业和开发者可以很快地用上大模型，摸清大模型落地的边界，让大模型产品有更多的玩法、可操作性更强，进而会推进AI的落地开展。

就像网上基于通义千问的开源大模型Qwen1.5-110B模型微调后的成果远超原始模型一样， 开源亦有能量。

当然上方只是从技术思想来讲开源的好处，但无法否定的是开源的商业形式确实不清朗，很难防止白嫖的现象。

我觉得从如今GPU的成本来看，很多选用开源模型的企业还是在10B参数规模， 太大了老本也兜不住，还不如选用API ，那么这时刻占据开源市场的头部企业的时机不就来了嘛。

开源大模型跟闭源大模型最后应该是相反相成的 ，只是不同人群用的不同。穷玩家、情愿研讨的玩家、须要有更多私有化定制的玩家，或许选用去玩开源大模型。富裕玩家、想伸手就用的玩家、谋求更高逼格的玩家，或许选用去玩闭源大模型。

开源模型与闭源模型的差距

团体以为， 开源大模型跟闭源大模型最后应该是相反相成的

lmsys.org对战分数图

真的不敢想想大模型开展会这么迅猛，不敢想想之前惊为天人的GPT3.5都曾经不配跟头部开源模型对标，都在对标GPT4。

从对战榜单过去看， 头部模型中，开源模型占比不在少数 ，可以觉得进去差距在减小。从体验过去说，头部开源模型得成果也是不错的。

闭源有数据壁垒，确实很难追，只能靠头部开源组织发力，集体或许小组织只能缝缝补补啦，反正Pre-train真是做不了。

但也请别小瞧缝缝补补的上班， 反正一些义务微调微调72B模型真无能过GPT4的。

开源模型哪家强

如今开源模型还是比拟多，但国际的话，目前我以为是阿里云的 通义千问，强不只在成果上，还体如今片面性上 。

Qwen是真开，1.5系列从0.5B、1.8B、7B、14B、32B、72B开到如今的110B、还有Code系列模型、MOE系列模型，1系列还有VL模型，全全全。

不论你须要多大尺寸的模型，Qwen都能满足，并且成果都很棒。在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上，Qwen1.5-110B逾越了Meta的Llama-3-70B模型，冲上榜首，证实其实力真的很强。

据不齐全统计，如今Qwen开源模型下载了超越了700万。

魔搭社区如今也是很能打，国际HuggingFace无法访问的状况下， 下载模型真得靠魔搭。 同时还有收费GPU经常使用时长（偶然测测小模型齐全够用），其余配套的模型训练名目、Agent名目就不说了。

反正是应有仅有，很难不爱。

当然国际也有很多其余的开源模型，然而论片面，真还得是Qwen。

本文转载自，作者：

<<基于知识图谱的少样本和零样本学习综述

剖析特定畛域大模型>>

浅谈大模型开源和闭源 开源闭源争执不休

写在前面

开源模型有哪些长处

开源模型与闭源模型的差距

开源模型哪家强

您可能还会对下面的文章感兴趣：

随便看看

浅谈大模型开源和闭源开源闭源争执不休