一大堆Llama3.1

2024-11-15

写在前面

Llama3.1模型曾经开源，在这短短几天之内，也是产生了一些Llama3.1汉化的repo，开源社区也是相当的卷。

重要是Llama3.1没无关注中文，只管是多言语，但重要针对英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。

只管让Llama3.1系列模型用中文回答时，也可以反常回答，但依然有中英文混合现象，并且词表是真没中文呀，中文场景下解码效率会比拟低。

咋说呢？反正也给中文大模型更多时机吧，开源社区也有更多事件可以做。

对Llama3.1启动中文增强，当然还是那几步：扩大中文词表、中文数据continue-pretrain、中文sft。

上方先便捷过一下Llama3.1的一些引见和成果，再给大家分享一些曾经开源的Chinese-Llama3.1名目。

Llama3.1引见和成果

前几天关于Llama3.1的引见其实一大堆了，我就不过的引见了，可以看我之前分享的两篇文章Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来完结？和浅谈Llama3.1，从结构、训练环节、影响到数据分解。

关于Llama3.1的系列模型，如今很多平台都曾经允许，假设本地没有资源部署，可以从这些平台上测试。上方的测试截图均来自Hugging Chat测试结果。

HF：
 只管Llama3.1-405B模型榜单成果有很秀，然而9.9和9.11谁的大也是一本正派的的胡言乱语。



 不过确实是Tokenizer的疑问。



 其实关于团体来说比拟奇异，之前一些模型其实都强调过，数字内容依照每个独自数字切割，不知道为啥Llama3.1没有驳回该战略。


 反正GPT4也是一样。



 上方两个弱智吧的疑问，考考Llama3.1（405B）,






 全体来说，还是比拟不错的，可以了解其中的含意，不过假设不强调中文回答，总是产生中英混同的状况。


 团体觉得，假设是地下、便捷的中文义务，Llama3.1还是可以间接经常使用的，但假设是比拟畛域、具化的场景，或者成果不会很好。


 自己在自己的一个中文分类场景上，比拟过Qwen2-7B、ChatGLM3-6B和Llama3.1-8B的成果，无论能否SFT，Llama3.1-8B在中文上的成果都要比另外两个差。


 PS：团体数据结果，不是相对，可以自行尝试，同时也欢迎留言讨论。


 Chinese-Llama3.1模型


 上方放几个曾经开源权重的Chinese-Llama3.1，这才两天，前面会越来越多，如今还有一些repo在占坑。


 但如今还是已SFT为主，在等等会有更多Chinese-Llama3.1系列模型产生，毕竟之前Chinese-Llama3曾经有很多模型啦。


 骗Star的时机又来啦！！！


 写在最后


 Llama3.1系列模型的开源意义真是蛮大的，405B证实开源也能追该上闭源，只管Mistral新开源的123B模型狙击了Llama3.1-405B，但只能说开源实在原来越好了。


 然而从实在经常使用角度来说，还是8B、70B的模型作用更间接，毕竟很多大模型真正落地上线的规模也就8B，要不然并动员来真耗不起。


 那么有一个不成熟的想法，能否更大的开源模型利于哪些搞大模型AI平台的厂商，由于自己有一套infra提升机制，专一推理，又有卡，为更多企业提供服务。而小模型才是企业可以自己游玩的，主机不用推太多，开源推理框架就够用了。


 最后，小扎的格式要关上呀，Mistral-123B都允许中文呦！


 本文转载自，作者：

<<How You Much Need? Do Transformer结构长处 Attention

这些方面也差异看待 AI不只仅对你名字有成见 OpenAI>>

一大堆Llama3.1

写在前面

Llama3.1引见和成果

Chinese-Llama3.1模型

写在最后

您可能还会对下面的文章感兴趣：

随便看看