九章云极DataCanvas多模态大模型平台的通常和思索

2024-11-15

一、多模态大模型的历史开展

上图这张照片是1956 年在美国达特茅斯学院召开的第一届人工智能workshop，这次会议也被以为拉开了人工智能的序幕，与会者关键是符号逻辑学届的前驱（除了前排两边的神经动物学家Peter Milner）。

但是这套符号逻辑学通常在随后的很长一段期间内都不可成功，甚至到 80 年代90年代还迎来了第一次性AI寒冬期。直到最近大言语模型的落地，咱们才发现真正承载这个逻辑思想的是神经网络，神经动物学家Peter Milner的上班激起了起初人工神经网络的开展，也正由于此他被约请参与了这个学术研究会。

2012年，Tesla智能驾驶主管Andrew在博客上颁布了下面这张图，显示过后美国总统奥巴马和自己的下属开玩笑。要让人工智能去了解这张图，不只是一个视觉感知义务，由于除了要识别物体，还须要了解他们之间的相关；只要知道体重秤的物理原理，才干知道图里形容的故事：奥巴马踩了秤，造成秤上的人体重升高，他因此做出了这个奇异的表情，同时其他人在一旁笑。这样的逻辑思想显然曾经超出了纯正的视觉感知范围，因此必定将视觉认知和逻辑思想结合到一同，才干解脱“人工智障”的难堪，而多模态大模型的关键性和艰巨性也体如今这里。

上图是人类大脑的解剖结构图，图中的言语逻辑区对应的就是大言语模型，而其余的区域则区分对应着不同的感官，包括视觉、听觉、触觉、静止、记忆等等。只管人工神经网络并不是真正意义上的脑神经网络，但还是可以从中遭到一些启示，即结构大模型的时刻，可以将不同的配置联结在一同，这也是多模态模型构建的基本思想。

1、多模态大模型可以做什么？

多模态大模型可以为咱们做很多事件，例如视频了解，大模型可以帮咱们总结视频的摘要以及关键消息，从而浪费咱们看视频的期间；大模型还可以协助咱们启动视频的前期剖析，例如节目分类、节目收视率统计等；此外，文生图也是多模态大模型的一个关键的运行畛域。

而大模型假设和人的静止，或许机器人的静止联结在一同，就会发生一个具身智能体，就像人一样，基于过往阅历布局最佳门路的方法，并运行到全新的场景中，处置一些先前没有遇见过的疑问，同时规避危险；甚至可以在口头环节中修正原有方案，直到最后取得成功。这也是一个具有宽泛前景的运行场景。

2、多模态大模型

上图是多模态大模型在开展环节中的一些关键节点：

从上图可以看出，短短半年期间，大模型就出现了十分多的变动，其迭代速度是十分快的。

上图是多模态大模型的通用架构图，蕴含一个言语模型、一个视觉模型，经过固定言语模型和固定视觉模型进而学习对齐模型；而对齐就是将视觉模型的矢量空间和言语模型的矢量空间启动联结，进而在一致的矢量空间里成功两者外在逻辑相关的了解。

图中所示的Flamingo模型和BLIP2模型都驳回相似的结构（Flamingo模型驳回Perceiver架构，而BLIP2模型驳回改良版的Transformer架构）；而后经过多种对比学习的方法启动预训练，对海量的token启动少量学习，取得较好的对齐效果；最后依据特定的义务对模型启动微调。

二、九章云极DataCanvas的多模态大模型平台

九章云极DataCanvas是人工智能基础软件提供商，同时提供算力资源（包括GPU集群），启动高性能的存储和网络优化，在此基础上提供大模型的训练工具，包括数据标注建模试验沙盒等。九章云极DataCanvas不只允许市面上经常出现的开源大模型，同时也在自主研发元识多模态大模型。在运行层，提供了工具对揭示词启动治理，对模型启动微调，并提供模型运维机制。同时，还开源了一款多模向量数据库，让基础软件架构愈加丰盛。

九章云极DataCanvas专一于全生命周期的开发的优化，包括数据预备（数据标注允许人工标注和智能标注）、模型开发、模型评价（包括横向评价和纵向评价）、模型推理（允许模型量化、知识蒸馏等减速推理机制）、模型运行等。

在构建模型时，启动了很多散布式高效优化上班，包括数据并行、Tensor并行、管道并行等。这些散布式优化上班是一键式成功的，并允许可视化调控，可以大大缩君子力老本，优化开发效率。

关于大模型tuning也启动了优化，包括经常出现的continue training、supervise tuning，以及reinforcement learning中的human feedback等。此外，关于中文也启动了很多优化，例如中文词表的智能扩大。由于很多中文词汇并未蕴含在开源大模型中，这些词汇或许会被拆分红多个token；将这些词汇启动智能扩大，可以让模型更好地经常使用这些词汇。

大模型的serving也是十分关键的一个组成局部，平台对模型量化、知识蒸馏等环节也启动了少量的优化，大大降低了计算老本，并经过逐层知识蒸馏来减速transformer，缩小其计算量。与此同时，也做了很多剪枝上班（包括结构化剪枝、稠密剪枝等），大大优化了大模型的推理速度。

此外，对交互式对话环节也启动了优化。例如多轮对话Transformer中，每个tensor的key和value是可以记住的，无需重复计算。因此，可将其存入Vector DB中，成功对话历史记忆配置，优化交互环节中的用户体验。

大模型揭示词设计和构建工具Prompt Manager，经过协助用户设计更好的揭示词，疏导大模型生成愈加准确、牢靠、合乎预期的输入内容。该工具既可面向技术人员提供development toolkit的开发形式，也可以面向非技术人员提供人机交互的操作形式，满足不同人群经常使用大模型的需求。

其关键配置包括：AI模型治理、场景治理、揭示词模板治理、揭示词开发和揭示词运行等。

平台提供了罕用的揭示词治理工具，可成功版本控制，并提供罕用模板来减速揭示词的成功。

三、九章云极DataCanvas多模态大模型的通常

1、多模态大模型——有记忆体

引见完平台配置，接上去会分享多模态大模型开发通常。

上图是九章云极DataCanvas多模态大模型的基本框架，与其它多模态大模型不同的一点是，它蕴含记忆体，可以优化开源大模型的推理才干。

普通开源大模型的参数量相对较低，假设再耗用一局部参数量启动记忆，其推理才干将会大幅降低。假设给开源大模型参与记忆体，则会同时优化推理才干和记忆才干。

此外，相似大少数模型，多模态大模型也会固定大言语模型和固定数据编码，针对对齐配置启动独自的模块化的训练；因此，一切不同的数据模态都会对齐到文本中的逻辑局部；在推理的环节，首先对言语启动翻译，而后启动融合，最后启动推理上班。

由于咱们的DingoDB多模向量数据库结合了多模态与ETL的配置，因此能够提供良好的非结构化数据治理才干。平台提供pipeline ETL配置，并做了很多优化，包括算子编译、并行处置，以及缓存优化等。

此外，平台提供Hub，可以将pipeline重复经常使用，成功最高效的开发体验。同时，允许 Huggingface上的泛滥编码器，可以成功对不同模态数据的最优编码。

3、多模态大模型构建方法

九章云极DataCanvas将元识多模态大模型作为底座，允许用户选用其它开源大模型，也允许用户经常使用自己的模态数据启动训练。

多模态大模型的构建大略分为三个阶段：

大模型中的记忆体架构，可以协助咱们成功多模态知识库树立，该知识库实践上是模型的运行。知乎就是一个典型的多模态知识库运行模块，其专业知识是可以溯源的。

为了保障知识确实定性和安保性，往往须要对专业知识启动溯源，知识库就可以协助咱们成功这此配置，同时新的知识参与也会比拟繁难，无需修正模型参数，间接把知识参与进数据库即可。

详细来说，将专业知识经过编码器启动不同的编码选用，同时依据不同的评价方法启动一致评价，经过一键评价来成功编码器的选用。最后运行编码器向量化之后存入DingoDB多模向量数据库，再经过大模型的多模态模块启动相关消息提取，经过言语模型来启动推理。

模型的最后一局部往往须要启动指令精调，由于不同用户的需求不太一样，因此须要对整个多模态大模型启动精调。由于多模态知识库在组织消息这局部不凡的长处，使得模型具有学习检索的才干，这也是咱们在文本的段落化环节中做的翻新。

普通的知识库是将文档启动段落化，而后对每一段启动独立的文本解锁。这种方法容易遭到噪声的搅扰，关于很多大的文档，很难判定段落划分的规范。

而咱们的模型中，检索模块启动学习，模型智能寻觅适合的结构化消息组织。关于某个详细产品，从产品说明书开局，首先定位大的目录段落，再定位到详细的段落。同时由于是多模态的消息集成，除了文字以外往往还会蕴含图像表格等，也可以启意向量化表白，再结合Meta消息，成功联结检索，从而优化检索效率。

值得说明的是，检索模块经常使用内存留意力机制，相较于同类算法可优化10%的召回率；同时可将内存留意力机制用于多模态文档处置，这也是十分有长处的一个方面。

四、对未来的思索与展望

企业中85%的数据都是非结构化数据，只要15%是结构化的数据。过去的20年，人工智能关键是围绕结构化数据开展的，而非结构化数据是十分难以应用的，须要十分大的精神和代价将其转化处置为结构化数据。而借助多模态大模型和多模态知识库，经过人工智能新范式，可以大大优化企业外部治理中非结构化数据的应用率，未来或许会带来10倍的价值增长。

多模态知识库作为智能体的基础，之上的研发agent、客服agent、开售agent、法律agent，人力资源agent，企业运维 agent等配置都可以经过知识库启动运作。

以开售agent为例，经常出现架构包括两个agent同时存在，其中一个担任决策，另一个担任开售阶段的剖析。这两个模块都可以经过多模态知识库寻觅相关消息，包括产品消息、历史开售统计资料、客户画像、过往开售阅历等，这些消息整合到一同，协助这两个agent做最好、最正确的选择，这些选择反上来协助用户取得最好的开售消息，再记载到多模态数据库集中，如此周而复始，始终优化开售业绩。

咱们置信未来最有价值的企业，是将智能体落到实处的企业。宿愿九章云极DataCanvas可以跟大家一路同行，相互助力。

算法多模态大模型

<<以Oracle为例聊聊DBA须要的罕用数据库TRACE

AIGC与因果推断双向赋能>>