2024年大模型LLM还有哪些可钻研的方向听听大佬怎样说

2024-11-14

2024年大模型LLM还有哪些可钻研的方向？

前言

纯属brainstorm，欢迎大家一同讨论。想到哪里说到哪里，有遗漏的点欢迎大家在评论区中指出。

团体以为如今LLM能做的点还很多，这个行业距离饱和还有一段距离。这里经过“ 输入、模型/范式、输入、其余 ”几个方面来开展，团体感觉比拟看好的方向加粗标出：

输入

这一节就跟pre-training、instruction tuning、RLHF的经典三阶段比拟关系了，其实也可以叫数据，而数据的关键性人造不用多说。

数据优化

目前的上班基本都是 “大规模语料 + 人工高品质数据集” 的方式启动暴力图解，在输入上经过设计启动优化还是有肯定可行之处的。

其实CV这边还是有很多相似做法可以参考的，尤其是做diffusion models的，雷同也是做生成，有很多方面有肯定共通之处。比如说最经典的Stable Diffusion，从最早的v1.4到v2.0，再到v2.1，也是经过在256×256、512×512、768×768分辨率上递进式的fine-tune实现的。

迁徙到LLM这一块，关于pre-training的时刻语料的处置，可以做ranking，包含fine-tune的时刻做continual learning、active learning等等，实践上可做的事以及相应的效果应该也是相近的。

关于data augmentation方面，之前看过一篇在LLM训练环节中往intermediate feature加高斯噪声的上班，证实了能够带来功能优化。论断其实是比拟幽默的，往intermediate feature参与噪声的做法可以了解为一种latent space上的data augmentation 但如此便捷的做法恰恰证实了其有效性，说明在数据增强这一块可做的设计还有很多 。感兴味的好友可以移步原文：《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Bette》，。

关系回答可以参考：大模型微调技巧-在Embedding上参与噪音提高指令微调效果，

RAG这一块属于是去年比拟火的一个点了，尤其是针对大模型“幻觉”的这个痛点，团体以为还可以做，但属于比拟卷的方向，往年的钻研应该会有数量上的骤增。可以看下RAG的近几年的文章状况：

可以看到，2023年RAG的上班曾经产生了显著的大幅参与，而大少数还是集中在做推理，也就是说， 预训练和微调还有钻研空间 。可以参考下图汇总目前RAG的钻研范式开展：

另一方面可以思索的是 模态消息上的拓展 。目前看来做Vision-Language Models（VLM）曾经是一个肯定趋向了，而RAG方法关键用于检索文本证据， 检索其余模态消息来增强生成还是有钻研空间的 。

模型/范式

“模型/范式”这一方面是团体比拟看好的方向。 目前AI巨头的举措也集中于这一块，估量2024年这一块可钻研的方向比拟多，当然估量也会极速地卷起来。

LLM + Robotics

前段期间OpenAI发布了Figure 01，只管说热度或许没有Sora那么高，不过说明LLM在做planning这件事上曾经有了初步的成绩，想必这件事件的发布势必会带动很多的关系钻研。详细的剖析可以参考我的往期回答：如何看待与Open AI协作的最新机器人成绩Figure 01?

Figure 01的意义其实不只限于robotics，其实也证实了agent的想法确实可行， agent势必会成为往年的一大热点 。其实早在去年，各大厂商都纷繁开局入场agent了.

学术界也不例外，这里举一些比拟经典的例子：比如说早期的HuggingGPT，出自《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》，。

ToolFormer，出自《Toolformer: Language Models Can Teach Themselves to Use Tools》，。

尤其是去年Stanford的西部小镇，出自《Generative Agents: Interactive Simulacra of Human Behavior》，给人的印象十分深入：

一致模态生成消息

这一点其实是短暂以来CV和NLP钻研者关注的疑问，也就是 多模态大一统的疑问 。而在生成这个角度上其实曾经有一些一致范式了，无论是Diffusion-Based还是LLM-Based。而LLM-Based的处置打算中，真正的难点在于 如何经过token这个概念表征其余模态的数据 。

目前一致文本、图像模态的上班曾经有很多，处置打算也很人造，驳回VQ-VAE系列的紧缩模型将图像表征为image token，LLM只有要学会怎样预测image token即可。而下一步的生成面向的 肯定是视频和3D 。假设能处置好video和3D的token representation疑问，那么一致模态生成就能进一步拓展，这其中还是有较大难度的，十分值得深挖。另外结合我团体十分有感受的一张图，也雷同能说明这个疑问：

Vision-Language Models

关于VLM来说，图像关系的上班曾经日趋饱和了，相似MiniGPT-4、LLaVA、mPlug-owl、CogVLM的经典上班曾经有不少了，大多驳回“Visual Encoder + LLM”的桥接方式，例如最经典的MiniGPT-4：

而前面说到， 视频和3D 肯定是下一波热点的钻研方向。将 LLM与更多的模态消息“桥接” ，必需是可以做的，不过这样的idea也很容易想到，团体以为VLM应该会十分卷。加上还要面对OpenAI这个大魔王，应该会有肯定的钻研压力。

另外一个比拟值得钻研的疑问是： 跨模态消息对齐之后能做什么？ 其实去年一些上班曾经证实，LLM除了常常出现的Visual QA、captioning这些义务，也能肯定水平实现vision-oriented的义务，例如有些钻研会用VLM在object detection上做验证，以此表现VLM的visual understanding才干，这其实说明 LLM的运行并不局限于text-oriented的下游义务 。

架构设计

架构设计方面，其实近段期间的一些上班意向也证实了目前LLM在架构设计上还有较大翻新空间。比如说去年比拟冷艳的Mistral-7b，包含前不久马斯克发表开源的Grok-1等等，基本都驳回MoE的架构在做，团体感觉这其实是一个比拟好的开局。LLM的模型架构自2022年以来就雷打不动，绝大局部钻研都在沿用先人的自动设定， 而关于这些自动设定上存在的疑问，相对是有钻研可做的。

其实反观diffusion models的开展也相似，从2020年DDPM推出以来，4年期间绝大局部的钻研都在沿用U-Net的自动架构，往年的Sora，包含Stable Diffusion 3中初次不约而同用到了Diffusion Transformer，证实了模型架构上确实是有值得翻新之处。 类比到LLM上也同理 。

关于Diffusion Transformer关系的解说，可以参考我的往期文章：Diffusion Transformer Family：关于Sora和Stable Diffusion 3你须要知道的一切，。

另一方面， Scaling Law必需是一个值得钻研的方向。 相似的还无关于 LLM的可解释性 ，目前LLM大局部钻研都是靠数据和算力的沉积来暴力图解，假设能够探索出肯定的实践依据，关于工业界或许是学术界来说都会是十分难得的钻研。 相似的方向还有LLM幻觉疑问上的关系钻研。

输入

生成内容安保疑问

生成内容的安保疑问其实也在逐渐遭到近期钻研的关注了，比如说LLaMa 2中就有特意关注这个疑问。其实生成内容的安保疑问触及很多其余的运行，比如说垂类运行。 无论是金融、法律、医疗，这些特定畛域在内容安保性上都会比general domain的要求要更高。 能给出安保性疑问的肯定处置打算，关于整个社区来说必需是有奉献的。

详细处置安保疑问其实跟前面提到的几个点有肯定交叉，例如从 数据层面上做优化、微调阶段做优化、RAG， 等等，这里就不再开展了。

评测疑问

团体以为evaluation其实是LLM钻研中 最值得钻研的一个点 ，然而同时也是很难的一点。无论是如今的 打榜、human evaluation、GPT打分 ，其实都很难片面去评价LLM，造成LLM在实践运行环节中并没有目的表现进去的那样好用。

而假设能有一个智能化的评测目的，最好能够结合LLM的实践基础启动设计，我感觉是目前社区比拟须要的一个方向。 当然，前面也说到，LLM的可解释性也是一个待处置的疑问，关系目的的设计也雷同具备应战。

其余

NLP经典义务

这或许是一个比拟小众的点。其实也是团体不时在思索的一个疑问， LLM时代下终究怎样样做NLP的经典义务？ 比如说parsing、句法关系的义务，LLM的设计跟这些义务之间必需是存在一些gap的，而怎样将language models在大规模数据上取得的才干迁徙在这些经典义务上，其实关系的上班仍比拟少。

垂类大模型

无论是工业界还是学术界，垂类大模型不时以来都是钻研热点之一。垂类大模型中与前面说到的数据优化、内容安保、评测疑问都高度耦合。关于不同的垂直畛域， 垂类大模型面临的最大疑问还是domain gap。 详细来说就包含很多方面了，例如特定畛域数据上的疑问，通常具备 畛域特性 ， 但数据量有限；内容安保上， 比如说金融、法律、医疗大模型， 对安保性的需求都比通用大模型要高； 评测疑问，就拿医疗大模型举例，还须要 跟专业的医疗常识结合才干有效评测 ，等等；技术上还触及LLM fine-tuning、domain adaptation，等等，甚至一些畛域关于context length、memory、continual learning、active learning等技术有特定需求。可做的点还是比拟丰盛的。

交叉学科

这点其实也是比拟有“学术滋味”的一类钻研， 文章上班自身更偏差于剖析类而并非试验。 通常将LLM与其余学科交叉启动剖析，例如 言语学、政治学、社会学、心思学， 等等。这类剖析文章试验代价通常相对较小，更并重统计、可视化、消融试验等剖析性质的试验，但同时也须要把握关系学科的专业常识，有肯定的门槛。

比拟有代表性的上班在ACL 2023的best paper就有，例如《Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest》，钻研LLM能否能了解幽默：

ACL 2023 best paper的另一篇则是对LLM的政治成见启动钻研，出自《From Pretraining>

值得一提的是，ACL 2023 best paper剩文章是对Stable Diffusion Cross-Attenion机制的钻研。包含Stanford西部小镇《Generative Agents: Interactive Simulacra of Human Behavior》，中也无关于AI agents交互与 社会流传学 的钻研，例如下图中就是关于特定义务的一个case study：

原文链接:

<<首个团圆分散模型准确反演方法！灵敏准确可控编辑！Dice

继Transformer后新架构Griffin降生 Google开源大模型新成员CodeGemma RecurrentGemma>>

2024年大模型LLM还有哪些可钻研的方向 听听大佬怎样说

前言

输入