ICLR 2024

2024-11-15

这是 UIUC Zifeng Wang 等宣布在 ICLR'24 上的论文。

论文标题：

BioBridge: Bridging Biomedical Foundation Models via Knowledge Graphs

论文链接：

在动物医学钻研畛域，不时以来，基础模型（Foundation Models，简称FMs）大多局限于繁多模态的数据解决，比如仅仅专一于蛋白质序列、小分子结构或许是临床数据剖析。这种单模态的解决框架只管在特定义务上体现杰出，但在应答多样化的动物医学数据时，其潜能却遭到了限度。

▲ 几种构建多模态模型的方法：CLIP，ImageBind，BioBridge

传统的多模态方法，比如小名鼎鼎的 CLIP 模型[1]，大多建设在配对的多模态数据上。比如，假设咱们要训练一个蛋白质-文本模型，就须要搜集少量的蛋白质序列和其对应的文本形容，从而做对比学习。这一类上班有很多，比如在 x-rays 和临床笔记上做对比的 MedCLIP[2]，在文本和蛋白质上做的 ProteinDT[3]，在文本和分子上做的 MolT5[4]，等等。

然而，假设咱们有超越两个模态，比如有三个模态 A,B,C，在这种思绪下，咱们就须要三种配对数据，AB, AC, 和 BC，能力训练一个三塔的多模态模型。当存在更多模态的时刻，这种关于数据的须要是陈列组合式增长的。这就使这种配对数据的思绪很难用于超越两个模态的状况。

ImageBind[5]是 Meta AI 提出的一种用来构建多模态检索模型的一种方法。其实质是选用一个模态作为两边模态，比如图片，而后让其余模态的模型都向图片模态聚拢。在这状况下，假定咱们有一个两边模态 A，还有另外两个模态 B,C，咱们就须要搜集 AB 和 AC 两种配对数据。在这种状况下，ImageBind 一共须要（模态数-1）个数的配对数据，而且须要降级（模态数-1）个模态的编码器来构建多模态系统。

本文提出用常识图谱（KG）来作为多模态数据源，从而将独立训练的单模态基础模型桥接（Bridge）成一个能够解决多种数据模态的系统（Multimodal FM）。

单模态的数据往往比多模态数据的数量要大的多。咱们可以搜集到超越 2.5 亿个蛋白质序列或许 15 亿个分子结构，然而只能搜集到 44 万个蛋白质文本对。大模型的缩放原理通知咱们，基础模型须要“大”数据能力发生所谓的 emergent ability。所以咱们更容易训练出很好的单模态模型，却不容易从零开局训练出一个多模态模性。

在这种思绪下，咱们宿愿能够在训练好的单模态基础模型的基础上，去把它们兼并在一同去作为一个多模态的系统。这就发生了这篇文章里提到的 “bridge” 的概念。

KG 存在许多三元组，比如（蛋白质 A, associated with，疾病 B）。这样，咱们宿愿能够用一个单模态的蛋白质模型去编码蛋白质 A，而后设计一个相关模型取编码 “associated with”，将蛋白质 A 的embedding 映射到疾病的 space 里。这样，咱们可以婚配由蛋白质 A 生成的 embedding 和疾病 B 的 embedding，做到跨模态检索。

经过 BioBridge，不同类型的动物医学数据能够成功无缝交互和转换，而且这一切都不须要对原有的单模态模型做任何调整。

这里放一小局部结果，更多的结果在原文可见。

这里咱们是用 BioBridge 来依据输入的文本，检索相关的蛋白质，再用蛋白质+文本去 prompt Galactica 生成分子模型。这里的思绪是应用 BioBridge 来构建一个多模态的 RAG 系统。本文发现加上 RAG 的 galactica 能够更好地生成合乎输入文本形容的分子。

原文链接:

<<在消费级GPU上奔跑的瘦子 WordLlama

将端侧大模型启动究竟>>

ICLR 2024

您可能还会对下面的文章感兴趣：

随便看看