生成式AI 的迸发元年

2024-11-15

2023年4月，距离chatGPT的正式发布曾经过去了四个多月，距离New Bing的发布过去了两个月，而GPT4雷同也曾经发布了一个月，各式各样围绕chatGPT或许说LLM模型的生态、社区、上班不时涌现，对Github Trending榜单不时关注的人或许早就留意到，围绕chatGPT的各种包装库以及各种开源模型上班继续地在占领榜单，这失实稀有。在接上去的篇幅中，咱们将以一个程序员的视角讨论当下生成式AI类工具对技术人员上班流的扭转，以及作为算法工程师，在对LLM模型启动通常时碰到的一系列疑问。最后，咱们也会关注这些工具所面临的应战和限度，以及未来的开展方向。咱们宿愿经过本文，为技术和产品人员提供有益的洞见，协助大家更好地利用这些工具。

一、AI造成的上班流变动

在最近这段期间内咱们曾经见证了AI在各行各业发生的渺小影响。在技术畛域，AI工具曾经成为一股无法漠视的力气，为程序员、数据剖析师和设计师等技术人员提供了弱小的辅佐配置。

在编程方面，基于人工自动的代码补全工具如GitHub Copilot可以极大地协助开发者提高编程效率。而在GPT4发布Copilot也发布了自己的更新版本即 GitHub Copilot X，它不只承袭了原有的代码补全配置，还围绕 AI 对话、Pull Request 提交处置、文档自动检索与阅读、命令行变革、代码审查和品质剖析甚至是语音生成代码等配置启动了全方位的更新。

▲图1 GitHub Copilot X新配置[2]

上述工具须要付费或许参与waiting list期待才可以拿到体验资历，所以假设你想取得相似的自动工详细验也可以间接经常使用Cursor这样收费的IDE工具，据官网说这是一个基于gpt4接口开发的简单IDE（实践体验上去应该还是GPT3.5），才干雷同足够强悍，它可以允许用GPT给你写代码，也可以允许围绕你的代码名目工程问任何疑问，并启动改良。

▲图2 Cursor配置演示[3]

在数据剖析畛域，AI工具也施展着关键作用。近期许多证券公司雷同介入到了chatGPT这个热潮中，不论是间接借助OpenAI的API调用还是自研小型的GPT类模型，AI技术可以协助剖析师高效地总结和演绎钻研报告。经过AI技术启动文本剖析和人造言语处置，可以提高消息处置速度，减轻人力累赘，从而为证券公司带来更多便利。在笔者深度体验chatGPT一段期间后，确实发现它的消息演绎总结才干十分杰出，像目前就有许多应用chatGPT的才干对文献启动极速总结的工具比如chatPDF，你只有要上传一个PDF文件就可以基于此启动诸多提问。

▲图3 chatPDF配置演示[4]

在设计畛域，AI工具雷同大放异彩，不过那里的主角是分散模型。例如，DALL-E这样的AI生成器，可以依据用户提供的文本形容，生成相应的图像；除此之外也有像Midjourney这样曾经十分完善的产品；在开源社区，这里的生态也不亚于chatGPT，基于开源的Stable Diffusion模型以及各种插件和Lora小模型所构成的处置打算曾经十分完善，设计师们齐全可以基于AI辅佐启动上班。而就在我写下这篇文章的期间点，基于分散模型、Controlnet以及Segment-Anything[1]的开源工具曾经发生了。

▲图4 Sample1-Edit Anything[5]

没什么觉得？再来一张感触一下：

▲图5 Sample2-Edit Anything[5]

总之，AI工具在技术畛域的运行正变得越来越宽泛和深化，它们曾经对程序员、数据剖析师和设计师等技术人员的上班流发生了严重影响。回顾了一下最近我自己在上班上方的流程变动，首先是经常使用搜查引擎的频率大大降低，关于自己不相熟的畛域会优先经常使用chatGPT来启动提问学习，而后再实践验证准确性；编程方面只管没有经常使用Github Copilot（基于安保以及隐衷的思索），但是咱们私有化的代码自动补全工具雷同可以优化我的编码效率，在分散模型方面只管我没有设计方面的需求，但是在开发IDE插件并发布到插件市场前，我经常使用它启动logo的生成，生功效果确实不赖。

▲ 图6 Acepilot logo由分散模型生成

二、LLM模型通常

如今开源社区有许多类chatGPT的开源成功打算：

■骆驼(Luotuo): 开源中文大言语模型[8]

■Vicuna: 号称能到达90% ChatGPT品质的开源模型[9]

■Koala：经过在网络上搜集的对话数据并基于Meta的LLaMA微调训练的模型 [10]

■Baize：Baize是由Lora技术训练的开源模型[11]

这些开源打算中所经常使用的模型都集中在100亿参数量左近，对LLM来说这曾经是十分轻量化的模型参数量了，但是即使训练这些轻量模型（包含经常使用Lora的打算）也须要消耗咱们许多算力。在之前的文章中提到过，咱们基于Codegen代码生成模型启动了通常，并且陆续开发了IDE插件供研发人员经常使用体验，最终构成了私有化部署的代码自动补全工具。后续随着上班的继续展开咱们优化了模型的生功效果，模型的参数量也从27亿参数量优化到了60亿参数量，但是对模型启动调优和实践优化部署时都碰到了许多疑问，因此光有模型并没有用，你须要有模型继续迭代优化的才干和资源，在模型部署上也须要有完善的模型减速手腕。

1.模型训练

由于事先在启动代码自动补全工具的体验时许多前端的共事都觉得它在Vue上的补全效果并不现实，因此咱们爬取了Github上40个优质的Vue名目并启动了数据上的预处置，由于计算资源有限，咱们基于此数据首先在2.7Billion参数量的模型上启动了调优尝试。

▲图7 27亿参数量模型微调

这是一个失败的尝试，只管微调事先的模型确实在Vue上的生功效果有了优化，但是在咱们经常使用了自己搜集和构建的多言语版本的HumanEval数据集启动测试发现，微调后的模型在其余言语上效果是有降低的，这并不合乎咱们的初衷。而后在测试原版的CodeGen 60亿参数量模型的效果时咱们发如今Vue上它也比微调事先的27亿参数量模型愈加低劣，至于其余言语就齐全无需比拟了。

但是这确实给咱们优化LLM积攒了一些阅历和思索。首先是计算资源消耗方面，即使是27亿参数量的模型咱们也至少须要两张32GB的V100显卡才干比拟有效率地微调咱们的模型，在经常使用散布式训练框架DeepSpeed 在不同的优化战略须要的显存和内存占用如下：

假设咱们须要微调的是60亿参数量的模型，那至少须要4张32GB显存的V100显卡才干满足算力的需求。另外是模型训练的方式上咱们还是驳回了个别的微调方法，经常使用个别微调方法的好处是对数据的品质要求没有那么高，也不须要复杂的数据处置。假设咱们搜集足够多的数据并把数据处置成指令微调的方式启动训练那样会对模型的生功效果有一个比拟大的优化。

2.模型部署

模型的部署至关关键，针对LLM的模型减速手腕必无法少，有许多模型减速技术可以协助优化模型的性能，例如模型量化、计算图优化等。模型量化：模型量化是将模型中的权重和激活值从浮点数示意转换为低位宽度整数示意（例如8位或16位整数）的环节。这可以清楚减小模型的体积和内存占用，同时提高计算速度。量化后的模型可以在资源受限的设施（如移动设施和嵌入式系统）上运转，同时坚持较高的性能。通常，模型量化会就义必定的精度，但在大少数状况下，这种损失是可以接受的。 ▲图8 模型量化技术[6]

计算图优化：计算图是用于示意神经网络中各层之间衔接相关的有向图。在模型部署阶段，计算图优化可以经过剪枝、融合和重排等操作缩小计算量和内存占用。剪枝是指移除网络中不关键的权重或神经元，以减小模型的体积。融合是将多个操作兼并为一个操作，以缩小计算量。重排是调整计算图中操作的顺序，以缩小内存访问和数据传输。经过这些优化手腕，计算图优化可以在坚持模型精度的同时，提高模型在不同配件平台上的性能。

其余部署技术：除了模型量化和计算图优化外，还有其余一些技术可以提高模型部署效果。例如，模型紧缩可以进一步减小模型体积，放慢加载速度。还可以经过经常使用高性能的深度学习库（如TensorRT、OpenVINO等）来提高模型在特定配件上的性能。

但是仅经常使用上述的优化手腕曾经满足不了咱们的性能需求了，因此咱们不得不经常使用更重量级的方法来减速模型的推理，那就是张量并行。 ▲图9 张量并行技术[7] 张量并行是一种用于减速深度学习模型推理的重量级方法，它经过在多个计算设施（如GPU）上同时口头模型中的不同局部来成功。在张量并行中，模型的权重和计算环节被拆分为多个独立的局部，每个局部在独自的计算设施上运转。这使得大型模型可以在有限的配件资源下启动高效计算。张量并行的关键长处在于其裁减性。经过参与计算设施的数量，咱们可以成功更大规模模型的极速推理。此外，由于各个设施上传动的操作更小，计算和通讯的开支也相应降低。但是，成功张量并行须要在算法和配件层面启动优化，以确保各个设施之间的负载平衡和通讯效率，成功张量并行有一些关键思索起因： 1. 模型划分：模型的权重和计算环节须要在多个计算设施上启动正当划分。这通常触及将模型的层或子网络调配给不同的设施。为了确保负载平衡，应当使每个设施承当相近的计算量。 2. 通讯优化：在张量并行中，设施之间须要启动通讯以替换两边计算结果。为了提高通讯效率，可以驳回高效的通讯库（如NVIDIA NCCL）和优化的通讯拓扑结构。此外，可以经过梯度累积、梯度稠密化等技术缩小通讯量。 3. 同步与异步口头：在并行计算环节中，设施间的同步与异步口头须要掂量。同步口头可以保障模型的分歧性，但或许造成设施之间的期待期间。异步口头可以缩小期待期间，提高设施应用率，但或许造成模型不稳固。正入选用同步和异步战略关于成功高性能张量并行至关关键。总之咱们在经常使用了上述一切的模型减速手腕后驱动一个60亿参数量的模型还是须要4张T4推理卡的算力，上方是推理时延和所须要的算力示意： ▲图10 推理时延与算力需求

三、总结与思索

置信大少数人都曾经感遭到AI工具在各行各业发生了影响，作为技术人员咱们须要不时地拥抱变动、学习新技艺和方法，以充沛应用AI所带来的好处。同时咱们也须要意识到AI技术存在的局限性，即使是GPT4，在启动很长一段深度经常使用后我还是可以十分自信地说让它来替代程序员还太早了。总的来说：

1. 提高效率：AI类工具可以协助技术人员更快地成功义务，如代码自动补全工具在提高编码效率方面。经过经常使用先进的AI算法，开发人员可以缩小编码期间，提高消费劲，这使得他们可以将更多的期间和精神投入到其余关键义务上，如设计架构、调试和优化上。

2. 翻新与拓展：LLM的火爆给AI畛域的从业人员提供了新的时机和应战。例如，如何应用有限的计算资源尽或许高效地训练模型以及在模型部署技术、模型减速方面的继续探求，这可以推进整个畛域内的技术翻新。

3. 顺应性与继续学习：随着AI技术的不时开展，技术人员须要不时顺应并把握新的工具和方法。这要求他们具有继续学习的才干，以便跟上传业的开展趋向。

4. 人工自动与人类协同：只管AI工具在许多方面都有清楚的长处，但在某些状况下，人类的专业常识和发明力依然无法替代。因此，技术人员须要学会与AI工具协同上班，充沛应用它们的长处，同时施展自己的专业才干，独特成功更高品质和效率的上班成绩。

参考文献

[2]Introducing GitHub Copilot X

[3]Cursor | Build Fast

[4]ChatPDF - Chat with any PDF!

[5]sail-sg/EditAnything: Edit anything in images powered by segment-anything, ControlNet, StableDiffusion, etc.

[6]MindSpore量化算法概述

[7]M. Shoeybi, M. Patwary, R. Puri, P. LeGresley, J. Casper, and B. Catan-

zaro, “Megatron-lm: Training multi-billion parameter language modelsusing model parallelism,” arXiv preprint arXiv:1909.08053, 2019.

[8]

[9]

[10]

[11]

本文转载自，作者：

<<如今一切人都能收费用GPT

Agent也有快慢脑了！这次真的不一样>>