大模型之视频图像生成之上班流

2024-11-14

“上班流既是对大模型技术的补充，又是大模型市场化的一个关键方向”

作为学习人工自动技术的人来说，上班流应该是一个耳熟能详的技术，因为大模型的短板要素(逻辑推理，幻觉，常识无余等疑问)，造成大模型在实践运行中存在很多疑问。

而又为了让大模型能够处置事实中上班与生存中的疑问，技术人员就想了一个方法，应用上班流联合大模型来成功义务，比如字节旗下的coze扣子平台。

而当天咱们要引见的是基于SD(Stable Diffusion)分散模型开发的上班流组件，与其对应的还有WebUI。

ComfyUI 是一个开源名目，关键用于构建和可视化机器学习上班流程，特意是在图像生成畛域中十分受欢迎。它为用户提供了一个基于节点的界面，经常使用户能够经过衔接不同的配置节点来创立复杂的图像生成义务。这些节点代表了图像处置的不同步骤，比如文本到图像的转换、图像到图像的变换等。

在传统的AIGC畛域中，AIGC通常被用来生成文字，图片和视频，在之前的文章中也讲到过对于AIGC方面的内容。

AIGC面临的关键疑问其实是小众畛域，比如大模型在一些群众畛域表现良好，比如二次元，古风这些出名度比拟高的畛域；但假设让AIGC生成一个抓泥鳅的视频或许就没那么好了。

要素就是之前说的，大模型在垂直畛域表现不佳，不论是AIGC，还是常识库亦或许是Agent都面临着这样的疑问。

处置这种疑问最好的模式就是从新设计与训练一个垂直畛域的大模型，但这种状况老本太高；而退而求其次，就是对大模型启动微调，但雷同的微调对很多小微企业也是无法接受的，不论是从老本角度还是从技术角度。

在当今训练和微调大模型老本高居不下的状况下，训练和微调一个大模型的老本真实是太高了，对绝大局部企业来说都得失相当。

而上班流的产生，在某些方面代替了大模型的微调配置；所谓的上班流，就是把义务拆分红一个一个的字节点，经过多个节点的配合到达最终目标。

而上班流在其中表演着什么角色呢？

比如说让大模型帮我生成一个美女跳舞的视频，而后有多种格调可以选用；而大模型间接输入的结果或许不尽人意。

这时上班流的作用就表现了，比如说上班流由多个节点组成，第一个节点帮我生成一个美女跳舞的视频；第二个节点，帮我在之前视频的基础上，生成一个古风的跳舞视频；亦或许生成一个二次元的视频。

这时经过上班流的模式，就可以把一个义务拆分红多个义务，这时就相当于给了大模型“思索”的期间，这时大模型的表现人造就会更好。

从事这种设计上班流辅佐大模型启动义务处置的人员，就叫做AI炼丹师；它们的义务就是依据需求，设计不同的上班流，让大模型用更小的老本，处置更复杂的义务。

原文链接：

<<RAG&amp 多模态多模态RAG

AI编剧时代来临 SkyScript>>