AI视觉改造 3.2 手机也能跑大模型 Llama

2024-11-14

Meta最新颁布的Llama 3.2不只能"看"，还能在你的手机上运转。这次更新带来了多模态允许的Llama Vision和专为设施端优化的"tiny"模型，共推出10个新模型，规模从1B纯文本到90B多模态（文本+图像）不等。

Llama 3.2的外围亮点：

1.Llama 3.2 Vision：推出11B和90B两种规模的多模态模型，允许文本+图像输入并生成文本输入。这些模型基于Llama 3.1文本模型，经过6B图像-文本对训练而成。

2.Llama 3.2 Edge：专为高效本地部署设计的1B和3B多言语纯文本模型。

3.一切Llama 3.2模型均允许128k token的超长高低文。

4.新训练方法：经过常识蒸馏和剪枝技术，从8B/70B模型中提炼出高效的1B/3B模型。

5.Llama Guard 3.2：两个增强版安激进护模型，新增视觉允许配置。

6.性能打破：Llama 3.2 3B模型在IFEval评测中到达了Llama 3.1 8B的水平，为设施端RAG或智能代理运行提供了弱小允许。

Llama 3.2的颁布标记着边缘AI和视觉技术的新纪元。此次更新引入了小型和中型视觉大言语模型（11B和90B），以及适用于移动设施的轻量级文本模型（1B和3B）。这些模型允许高达128K的高低文长度，旨在成功本地解决的即时性与隐衷包全，满足用户在摘要、指令追随和文本重写等义务中的需求。

在图像了解畛域，Llama 3.2的视觉模型体现杰出，能够解决文档级了解、图表解读及图像标注等义务。经过与大言语模型的无缝对接，用户可以间接用人造言语提问，模型将联合图像消息提供准确的答案。此外，这些模型经过在本地运转，保障了数据的私密性，使得运行程序在安保性和效率上都获取了极大的优化。

Llama 3.2的架构翻新使其在解决图像与文本的联合时体现更为杰出。经过引入适配器技术，模型不只坚持了文本解决的弱小才干，还削减了对图像的深度了解与推理才干。Meta还与多家协作同伴独特开发了Llama Stack散发版，简化了开发者在不同环境下的经常使用流程，推进了生成式AI的可用性与翻新性。

总之，Llama 3.2不只增强了边缘设施的AI才干，还为开发者提供了丰盛的自定义选项。随着开明性与可修正性的继续推进，Llama 3.2将推进更多发明性和适用性的打破，扭转咱们与AI互动的模式。

链接：

本文转载自，作者：