浅谈大模型开源和闭源 开源闭源争执不休

写在前面

前一阵子的开源和闭源之争炒的比拟炽热,之前不时想写点什么,由于太懒就没写,然而最近开源模型真的太火爆了,前有Grok-1、Mistral-8x22、Llama3,后有Yi-1.5、Deepseek-V2、Qwen1.5-110B, 开源模型如今真的卷到飞起。

当天便捷聊聊上方的几点内容,欢迎大家拍砖,给出不同认识:

开源模型有哪些长处

团体以为, 开源大模型是让大模型行业卷起来的根源。

在ChatGPT刚刚进去的时刻,业内满是焦虑;在Llama开源之后,业界满是兴奋,由于更多人看到了光。

开源的长处重要是人多,或许有人会反驳说AI须要高精尖的人才,但老话不是常说三个臭皮匠顶个诸葛亮嘛。(很多大佬其实也是没有什么资源,从头预训练的资源消耗真的太大了)

人一多,点子就多,就会衍生出很多大模型关系Trick,就像如何启动高低文裁减(NTK、YaRN、LongLora等)、如何小代价启动模型Merge获取更大更好的模型(SOLAR、Llama-Pro等)、如何更好更高效地启动人类偏好对齐(DPO、ORPO等)等等等。假设没有好的开源模型,很多研讨兴许就没法涌现进去。

更多人涌入到大模型关系研讨中,总会给大模型的开展带来踊跃的作用。闭源大模型团队的人也可以从外界吸取一些方法,来进一步优化模型自身成果。

随着微调名目标开源、部署框架的不时开源、提高,如今很多中小企业和开发者可以很快地用上大模型,摸清大模型落地的边界,让大模型产品有更多的玩法、可操作性更强,进而会推进AI的落地开展。

就像网上基于通义千问的开源大模型Qwen1.5-110B模型微调后的成果远超原始模型一样, 开源亦有能量。

当然上方只是从技术思想来讲开源的好处,但无法否定的是开源的商业形式确实不清朗,很难防止白嫖的现象。

我觉得从如今GPU的成本来看,很多选用开源模型的企业还是在10B参数规模, 太大了老本也兜不住,还不如选用API ,那么这时刻占据开源市场的头部企业的时机不就来了嘛。

开源大模型跟闭源大模型最后应该是相反相成的 ,只是不同人群用的不同。穷玩家、情愿研讨的玩家、须要有更多私有化定制的玩家,或许选用去玩开源大模型。富裕玩家、想伸手就用的玩家、谋求更高逼格的玩家,或许选用去玩闭源大模型。

开源模型与闭源模型的差距

团体以为, 开源大模型跟闭源大模型最后应该是相反相成的

lmsys.org对战分数图

真的不敢想想大模型开展会这么迅猛,不敢想想之前惊为天人的GPT3.5都曾经不配跟头部开源模型对标,都在对标GPT4。

从对战榜单过去看, 头部模型中,开源模型占比不在少数 ,可以觉得进去差距在减小。从体验过去说,头部开源模型得成果也是不错的。

闭源有数据壁垒,确实很难追,只能靠头部开源组织发力,集体或许小组织只能缝缝补补啦,反正Pre-train真是做不了。

但也请别小瞧缝缝补补的上班, 反正一些义务微调微调72B模型真无能过GPT4的。

开源模型哪家强

如今开源模型还是比拟多,但国际的话,目前我以为是阿里云的 通义千问,强不只在成果上,还体如今片面性上

Qwen是真开,1.5系列从0.5B、1.8B、7B、14B、32B、72B开到如今的110B、还有Code系列模型、MOE系列模型,1系列还有VL模型,全全全。

不论你须要多大尺寸的模型,Qwen都能满足,并且成果都很棒。在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上,Qwen1.5-110B逾越了Meta的Llama-3-70B模型,冲上榜首,证实其实力真的很强。

据不齐全统计,如今Qwen开源模型下载了超越了700万。

魔搭社区如今也是很能打,国际HuggingFace无法访问的状况下, 下载模型真得靠魔搭。 同时还有收费GPU经常使用时长(偶然测测小模型齐全够用),其余配套的模型训练名目、Agent名目就不说了。

反正是应有仅有,很难不爱。

当然国际也有很多其余的开源模型,然而论片面,真还得是Qwen。

本文转载自​​,作者:​​

您可能还会对下面的文章感兴趣: