2024年大模型LLM还有哪些可钻研的方向 听听大佬怎样说
2024年大模型LLM还有哪些可钻研的方向?
前言
纯属brainstorm,欢迎大家一同讨论。想到哪里说到哪里,有遗漏的点欢迎大家在评论区中指出。
团体以为如今LLM能做的点还很多,这个行业距离饱和还有一段距离。这里经过“ 输入、模型/范式、输入、其余 ”几个方面来开展,团体感觉比拟看好的方向 加粗 标出:
输入
这一节就跟pre-training、instruction tuning、RLHF的经典三阶段比拟关系了,其实也可以叫数据,而数据的关键性人造不用多说。
数据优化
目前的上班基本都是 “大规模语料 + 人工高品质数据集” 的方式启动暴力图解,在输入上经过设计启动优化还是有肯定可行之处的。
其实CV这边还是有很多相似做法可以参考的,尤其是做diffusion models的,雷同也是做生成,有很多方面有肯定共通之处。比如说最经典的Stable Diffusion,从最早的v1.4到v2.0,再到v2.1,也是经过在256×256、512×512、768×768分辨率上递进式的fine-tune实现的。
迁徙到LLM这一块,关于pre-training的时刻语料的处置,可以做ranking,包含fine-tune的时刻做continual learning、active learning等等,实践上可做的事以及相应的效果应该也是相近的。
关于data augmentation方面,之前看过一篇在LLM训练环节中往intermediate feature加高斯噪声的上班,证实了能够带来功能优化。论断其实是比拟幽默的,往intermediate feature参与噪声的做法可以了解为一种latent space上的data augmentation 但如此便捷的做法恰恰证实了其有效性,说明在数据增强这一块可做的设计还有很多 。感兴味的好友可以移步原文:《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Bette》,。
关系回答可以参考:大模型微调技巧-在Embedding上参与噪音提高指令微调效果,
RAG这一块属于是去年比拟火的一个点了,尤其是针对大模型“幻觉”的这个痛点,团体以为还可以做,但属于比拟卷的方向,往年的钻研应该会有数量上的骤增。可以看下RAG的近几年的文章状况:
可以看到,2023年RAG的上班曾经产生了显著的大幅参与,而大少数还是集中在做推理,也就是说, 预训练和微调还有钻研空间 。可以参考下图汇总目前RAG的钻研范式开展:
另一方面可以思索的是 模态消息上的拓展 。目前看来做Vision-Language Models(VLM)曾经是一个肯定趋向了,而RAG方法关键用于检索文本证据, 检索其余模态消息来增强生成还是有钻研空间的 。
模型/范式
“模型/范式”这一方面是团体比拟看好的方向。 目前AI巨头的举措也集中于这一块,估量2024年这一块可钻研的方向比拟多,当然估量也会极速地卷起来。
LLM + Robotics
前段期间OpenAI发布了Figure 01,只管说热度或许没有Sora那么高,不过说明LLM在做planning这件事上曾经有了初步的成绩,想必这件事件的发布势必会带动很多的关系钻研。详细的剖析可以参考我的往期回答:如何看待与Open AI协作的最新机器人成绩Figure 01?
Figure 01的意义其实不只限于robotics,其实也证实了agent的想法确实可行, agent势必会成为往年的一大热点 。其实早在去年,各大厂商都纷繁开局入场agent了.
学术界也不例外,这里举一些比拟经典的例子:比如说早期的HuggingGPT,出自《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》,。
ToolFormer,出自《Toolformer: Language Models Can Teach Themselves to Use Tools》,。
尤其是去年Stanford的西部小镇,出自《Generative Agents: Interactive Simulacra of Human Behavior》,给人的印象十分深入:
一致模态生成消息
这一点其实是短暂以来CV和NLP钻研者关注的疑问, 也就是 多模态大一统的疑问 。而在生成这个角度上其实曾经有一些一致范式了,无论是Diffusion-Based还是LLM-Based。而LLM-Based的处置打算中,真正的难点在于 如何经过token这个概念表征其余模态的数据 。
目前一致文本、图像模态的上班曾经有很多,处置打算也很人造,驳回VQ-VAE系列的紧缩模型将图像表征为image token,LLM只有要学会怎样预测image token即可。而下一步的生成面向的 肯定是视频和3D 。假设能处置好video和3D的token representation疑问,那么一致模态生成就能进一步拓展,这其中还是有较大难度的,十分值得深挖。另外结合我团体十分有感受的一张图,也雷同能说明这个疑问:
Vision-Language Models
关于VLM来说,图像关系的上班曾经日趋饱和了,相似MiniGPT-4、LLaVA、mPlug-owl、CogVLM的经典上班曾经有不少了,大多驳回“Visual Encoder + LLM”的桥接方式,例如最经典的MiniGPT-4:
而前面说到, 视频和3D 肯定是下一波热点的钻研方向。将 LLM与更多的模态消息“桥接” ,必需是可以做的,不过这样的idea也很容易想到,团体以为VLM应该会十分卷。加上还要面对OpenAI这个大魔王,应该会有肯定的钻研压力。
另外一个比拟值得钻研的疑问是: 跨模态消息对齐之后能做什么? 其实去年一些上班曾经证实,LLM除了常常出现的Visual QA、captioning这些义务,也能肯定水平实现vision-oriented的义务,例如有些钻研会用VLM在object detection上做验证,以此表现VLM的visual understanding才干,这其实说明 LLM的运行并不局限于text-oriented的下游义务 。
架构设计
架构设计方面,其实近段期间的一些上班意向也证实了目前LLM在架构设计上还有较大翻新空间。比如说去年比拟冷艳的Mistral-7b,包含前不久马斯克发表开源的Grok-1等等,基本都驳回MoE的架构在做,团体感觉这其实是一个比拟好的开局。LLM的模型架构自2022年以来就雷打不动,绝大局部钻研都在沿用先人的自动设定, 而关于这些自动设定上存在的疑问,相对是有钻研可做的。
其实反观diffusion models的开展也相似,从2020年DDPM推出以来,4年期间绝大局部的钻研都在沿用U-Net的自动架构,往年的Sora,包含Stable Diffusion 3中初次不约而同用到了Diffusion Transformer,证实了模型架构上确实是有值得翻新之处。 类比到LLM上也同理 。
关于Diffusion Transformer关系的解说,可以参考我的往期文章:Diffusion Transformer Family:关于Sora和Stable Diffusion 3你须要知道的一切, 。
另一方面, Scaling Law必需是一个值得钻研的方向。 相似的还无关于 LLM的可解释性 ,目前LLM大局部钻研都是靠数据和算力的沉积来暴力图解,假设能够探索出肯定的实践依据,关于工业界或许是学术界来说都会是十分难得的钻研。 相似的方向还有LLM幻觉疑问上的关系钻研。
输入
生成内容安保疑问
生成内容的安保疑问其实也在逐渐遭到近期钻研的关注了,比如说LLaMa 2中就有特意关注这个疑问。其实生成内容的安保疑问触及很多其余的运行,比如说垂类运行。 无论是金融、法律、医疗,这些特定畛域在内容安保性上都会比general domain的要求要更高。 能给出安保性疑问的肯定处置打算,关于整个社区来说必需是有奉献的。
详细处置安保疑问其实跟前面提到的几个点有肯定交叉,例如从 数据层面上做优化、微调阶段做优化、RAG, 等等,这里就不再开展了。
评测疑问
团体以为evaluation其实是LLM钻研中 最值得钻研的一个点 ,然而同时也是很难的一点。无论是如今的 打榜、human evaluation、GPT打分 ,其实都很难片面去评价LLM,造成LLM在实践运行环节中并没有目的表现进去的那样好用。
而假设能有一个智能化的评测目的,最好能够结合LLM的实践基础启动设计,我感觉是目前社区比拟须要的一个方向。 当然,前面也说到,LLM的可解释性也是一个待处置的疑问,关系目的的设计也雷同具备应战。
其余
NLP经典义务
这或许是一个比拟小众的点。其实也是团体不时在思索的一个疑问, LLM时代下终究怎样样做NLP的经典义务? 比如说parsing、句法关系的义务,LLM的设计跟这些义务之间必需是存在一些gap的,而怎样将language models在大规模数据上取得的才干迁徙在这些经典义务上,其实关系的上班仍比拟少。
垂类大模型
无论是工业界还是学术界,垂类大模型不时以来都是钻研热点之一。垂类大模型中与前面说到的数据优化、内容安保、评测疑问都高度耦合。关于不同的垂直畛域, 垂类大模型面临的最大疑问还是domain gap。 详细来说就包含很多方面了,例如特定畛域 数据 上的疑问,通常具备 畛域特性 , 但数据量有限;内容安保上, 比如说金融、法律、医疗大模型, 对安保性的需求都比通用大模型要高; 评测疑问,就拿医疗大模型举例,还须要 跟专业的医疗常识结合才干有效评测 ,等等; 技术 上还触及LLM fine-tuning、domain adaptation,等等,甚至一些畛域关于context length、memory、continual learning、active learning等技术有特定需求。可做的点还是比拟丰盛的。
交叉学科
这点其实也是比拟有“学术滋味”的一类钻研, 文章上班自身更偏差于剖析类而并非试验。 通常将LLM与其余学科交叉启动剖析,例如 言语学、政治学、社会学、心思学, 等等。这类剖析文章试验代价通常相对较小,更并重统计、可视化、消融试验等剖析性质的试验,但同时也须要把握关系学科的专业常识,有肯定的门槛。
比拟有代表性的上班在ACL 2023的best paper就有,例如《Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest》,钻研LLM能否能了解幽默:
ACL 2023 best paper的另一篇则是对LLM的政治成见启动钻研,出自《From Pretraining>
值得一提的是,ACL 2023 best paper剩文章是对Stable Diffusion Cross-Attenion机制的钻研。包含Stanford西部小镇 《Generative Agents: Interactive Simulacra of Human Behavior》,中也无关于AI agents交互与 社会流传学 的钻研,例如下图中就是关于特定义务的一个case study:
原文链接: