ICLR 2024

这是 UIUC Zifeng Wang 等宣布在 ICLR'24 上的论文。

论文标题:

BioBridge: Bridging Biomedical Foundation Models via Knowledge Graphs

论文链接:

在动物医学钻研畛域,不时以来,基础模型(Foundation Models,简称FMs)大多局限于繁多模态的数据解决,比如仅仅专一于蛋白质序列、小分子结构或许是临床数据剖析。这种单模态的解决框架只管在特定义务上体现杰出,但在应答多样化的动物医学数据时,其潜能却遭到了限度。

▲ 几种构建多模态模型的方法:CLIP,ImageBind,BioBridge

传统的多模态方法,比如小名鼎鼎的 CLIP 模型[1],大多建设在配对的多模态数据上。比如,假设咱们要训练一个蛋白质-文本模型,就须要搜集少量的蛋白质序列和其对应的文本形容,从而做对比学习。这一类上班有很多,比如在 x-rays 和临床笔记上做对比的 MedCLIP[2],在文本和蛋白质上做的 ProteinDT[3],在文本和分子上做的 MolT5[4],等等。

然而,假设咱们有超越两个模态,比如有三个模态 A,B,C,在这种思绪下,咱们就须要三种配对数据,AB, AC, 和 BC,能力训练一个三塔的多模态模型。当存在更多模态的时刻,这种关于数据的须要是陈列组合式增长的。这就使这种配对数据的思绪很难用于超越两个模态的状况。

ImageBind[5]是 Meta AI 提出的一种用来构建多模态检索模型的一种方法。其实质是选用一个模态作为两边模态,比如图片,而后让其余模态的模型都向图片模态聚拢。在这状况下,假定咱们有一个两边模态 A,还有另外两个模态 B,C,咱们就须要搜集 AB 和 AC 两种配对数据。在这种状况下,ImageBind 一共须要 (模态数-1)个数的配对数据,而且须要降级 (模态数-1)个模态的编码器来构建多模态系统。

本文提出用常识图谱(KG)来作为多模态数据源,从而将独立训练的单模态基础模型桥接(Bridge)成一个能够解决多种数据模态的系统(Multimodal FM)。

单模态的数据往往比多模态数据的数量要大的多。咱们可以搜集到超越 2.5 亿个蛋白质序列或许 15 亿个分子结构,然而只能搜集到 44 万个蛋白质文本对。大模型的缩放原理通知咱们,基础模型须要“大”数据能力发生所谓的 emergent ability。所以咱们更容易训练出很好的单模态模型,却不容易从零开局训练出一个多模态模性。

在这种思绪下,咱们宿愿能够在训练好的单模态基础模型的基础上,去把它们兼并在一同去作为一个多模态的系统。这就发生了这篇文章里提到的 “bridge” 的概念。

KG 存在许多三元组,比如(蛋白质 A, associated with,疾病 B)。这样,咱们宿愿能够用一个单模态的蛋白质模型去编码蛋白质 A,而后设计一个相关模型取编码 “associated with”,将蛋白质 A 的embedding 映射到疾病的 space 里。这样,咱们可以婚配由蛋白质 A 生成的 embedding 和疾病 B 的 embedding,做到跨模态检索。

经过 BioBridge,不同类型的动物医学数据能够成功无缝交互和转换,而且这一切都不须要对原有的单模态模型做任何调整。

这里放一小局部结果,更多的结果在原文可见。

这里咱们是用 BioBridge 来依据输入的文本,检索相关的蛋白质,再用蛋白质+文本去 prompt Galactica 生成分子模型。这里的思绪是应用 BioBridge 来构建一个多模态的 RAG 系统。本文发现加上 RAG 的 galactica 能够更好地生成合乎输入文本形容的分子。

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: