多模态开源生态系统基础 Llama Molmo & Vision 3.2
作者 | Nathan Lambert
编译 | 岳扬
多模态言语模型畛域相比纯言语模型,显得定义更为不明白、未处置的疑问更多,同时也有更多空间让人们施展创意。在言语模型畛域,存在一系列明白的义务和行为,那些前沿试验室正试图经过例如 OpenAI o1 这样的翻新训练方法,在最为辣手的推理疑问上取得打破。但是,无论是前沿试验室(frontier labs)还是小型试验室(small labs),都在探求多模态模型的运行方向。AI如何“感知”和了解外部环球?领有一系列弱小的开明式模型(open models)关于该畛域片面且地下、透明的开展至关关键——这是成功踊跃成绩的两个关键条件(译者注:这两个条件应当是指片面、地下透明的开展)。
目前,多模态言语模型钻研大多是经过 late-fusion 模型启动的,即基于言语骨干网络(language backbone)和图像编码器(image encoder)(很或许也是 GPT-4V 所经常使用的方法)启动初始化。 这种对基础言语模型的微调方式虽然老本较高,但实践上计算老本并没有人们构想的那么难以接受。虽然存在多种模型架构[1],但由于 late-fusion 这一架构的稳固性和可预测性,成为了当下钻研的抢手选用。Molmo 和 Llama 3.2 V 就是经过这种方法训练而成的。
经过在多模态数据集上预训练的 early-fusion 模型来扩展数据的预期效果尚未浮现。或许只要当这些模型在 GPT-5 级别的计算集群上启动测试时,它们的真正好处才会浮现进去。
Late-fusion 的多模态方法激起了咱们对如何将基础言语模型转型更新为多样化输入方式的深化探求。回忆过去几年咱们在模型微调畛域所驳回的各种技术,从 RLHF 开局,到多模态 late-fusion 模型,再到像 o1 这样的翻新模型,咱们看法到模型还有少量表白潜能等候咱们去开掘。一些基本疑问依然值得关注,比如“多模态训练会对 GSM8k 或 IFEval 这样的规范文本评测基准形成何种影响?”在对模型启动视觉方面的微调之后,那些关键用于评价模型常识水平的规范测试,例如 MMLU(Massive Multitask Language Understanding)测试,并没有出现较大变动。
这个畛域对我来说雷同陈腐。本文的关键引见对象是 Ai2 的一个关键模型版本——Molmo[2](开明式多模态言语模型),以及 Meta 的新模型 Llama 3.2 Vision。两者都推出了一套不同规模的四个模型。它们的性能体现相当,但 Molmo 在开明水平上更胜一筹。
Meta 颁布了 Llama 3.2 的早期版本,包括 1B、3B、11B-Vision 和 90B-Vision[3],并在博客文章中泄漏了一些训练环节的细节[4](文章中还无关系链接)。11B 模型或许是基于 Llama 3 8B 模型的改良版,而 90B 模型则是在 Llama 3 70B 模型的基础上开展而来的。
Ai2 推出了基于 Qwen 2 72B 打造的 Molmo 72B,基于 Qwen 2 7B 的 Molmo-7B-D,行将问世的基于 OLMo 7B 版本的 Molmo-O,以及基于 OLMoE 并领有 1B 生动参数的 Molmo-E。
Molmo 系列模型驳回 Apache 2.0 容许协定,而 Meta 模型则驳回了 Llama 3.2 社区容许协定,该容许协定对模型的经常使用施加了一些较为严厉的限度。
这不由让人思索,人工自动畛域的开展将何去何从。实践上,重头戏是 1B 和 3B 参数规模的 Llama 模型。小型言语模型的市场需求继续攀升,而且随着这些模型才干的始终优化,市场后劲还在始终扩展。我会重复讨论这一话题,但当天咱们聚焦的是多模态。
01 Llama Vision:面向群众开发者的多模态模型
自 Llama 3 报告[5]颁布以来,Meta 曾经明白示意这些模型不久将面世(欧盟地域除外)。Meta 正在将它们运行到 Meta AI 以及旗下的增强理想(AR)/虚构理想(VR)设施,例如 RayBan 自动眼镜。 这些模型十分牢靠,比敞开试验室的小型模型更胜一筹,后者的生动参数理论预计在 60B 范围内。
关于这些模型的详细信息相对较少。若欧盟地域的用户尝试从 Meta AI 的官网页面下载模型,将会看到我在 HuggingFace 平台上看到的天文限度锁