一大堆Llama3.1
写在前面
Llama3.1模型曾经开源,在这短短几天之内,也是产生了一些Llama3.1汉化的repo,开源社区也是相当的卷。
重要是Llama3.1没无关注中文,只管是多言语,但重要针对英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。
只管让Llama3.1系列模型用中文回答时,也可以反常回答,但依然有中英文混合现象,并且词表是真没中文呀,中文场景下解码效率会比拟低。
咋说呢?反正也给中文大模型更多时机吧,开源社区也有更多事件可以做。
对Llama3.1启动中文增强,当然还是那几步:扩大中文词表、中文数据continue-pretrain、中文sft。
上方先便捷过一下Llama3.1的一些引见和成果,再给大家分享一些曾经开源的Chinese-Llama3.1名目。
Llama3.1引见和成果
前几天关于Llama3.1的引见其实一大堆了,我就不过的引见了,可以看我之前分享的两篇文章Llama3.1系列模型正式开源,最大405B,闭源模型的统治时代将迎来完结?和浅谈Llama3.1,从结构、训练环节、影响到数据分解。
关于Llama3.1的系列模型,如今很多平台都曾经允许,假设本地没有资源部署,可以从这些平台上测试。上方的测试截图均来自Hugging Chat测试结果。
HF:
只管Llama3.1-405B模型榜单成果有很秀,然而9.9和9.11谁的大也是一本正派的的胡言乱语。
不过确实是Tokenizer的疑问。
其实关于团体来说比拟奇异,之前一些模型其实都强调过,数字内容依照每个独自数字切割,不知道为啥Llama3.1没有驳回该战略。
反正GPT4也是一样。
上方两个弱智吧的疑问,考考Llama3.1(405B),
全体来说,还是比拟不错的,可以了解其中的含意,不过假设不强调中文回答,总是产生中英混同的状况。
团体觉得,假设是地下、便捷的中文义务,Llama3.1还是可以间接经常使用的,但假设是比拟畛域、具化的场景,或者成果不会很好。
自己在自己的一个中文分类场景上,比拟过Qwen2-7B、ChatGLM3-6B和Llama3.1-8B的成果,无论能否SFT,Llama3.1-8B在中文上的成果都要比另外两个差。
PS:团体数据结果,不是相对,可以自行尝试,同时也欢迎留言讨论。
Chinese-Llama3.1模型
上方放几个曾经开源权重的Chinese-Llama3.1,这才两天,前面会越来越多,如今还有一些repo在占坑。
但如今还是已SFT为主,在等等会有更多Chinese-Llama3.1系列模型产生,毕竟之前Chinese-Llama3曾经有很多模型啦。
骗Star的时机又来啦!!!
写在最后
Llama3.1系列模型的开源意义真是蛮大的,405B证实开源也能追该上闭源,只管Mistral新开源的123B模型狙击了Llama3.1-405B,但只能说开源实在原来越好了。
然而从实在经常使用角度来说,还是8B、70B的模型作用更间接,毕竟很多大模型真正落地上线的规模也就8B,要不然并动员来真耗不起。
那么有一个不成熟的想法,能否更大的开源模型利于哪些搞大模型AI平台的厂商,由于自己有一套infra提升机制,专一推理,又有卡,为更多企业提供服务。而小模型才是企业可以自己游玩的,主机不用推太多,开源推理框架就够用了。
最后,小扎的格式要关上呀,Mistral-123B都允许中文呦!
本文转载自,作者: