大型言语模型在医学畛域的运行探求Med

2024-11-15

在医学畛域，消息的准确性、牢靠性和安保性至关关键。随着人工智能（AI）技术的开展，大型言语模型（LLM）如GPT-3和BERT为医学畛域带来了新的机会。这些模型在言语处置方面的才干，使其在医学运行中显示出渺小后劲，包括常识检索、临床决策支持和患者分流。

为了评价LLM在医学背景下的体现，钻研人员筹划了多医学识答（MultiMedQA），这是一个联合了七个医学识题答双数据集的基准。这个基准包括：

多医学识答准许钻研人员从多个角度评价LLM，包括：

钻研中经常使用了谷歌的Pathways Language Model（PaLM）及其经过指令调整的变体Flan-PaLM作为基线模型。

钻研人员在多医学识答上测试了这些模型，经常使用了多种揭示战略，如大批样本、思想链（COT）和自我分歧性揭示。值得留意的是，Flan-PaLM在一切多项选用数据集上都取得了最先进的准确性，甚至在某些方面超越了人类的体现。

虽然Flan-PaLM在多项选用疑问上体现微弱，但在回答活产者医学识题时显示出清楚的局限性，这突显了与医学畛域进一步对齐的必要性。为此，钻研人员引入了指令揭示调整，这是一种陈腐的方法，用于使LLM顺应特定畛域，如医学。

这种技术建设在揭示调整的基础上，这是一种参数高效的方法，用于使LLM顺应下游义务。指令揭示调整触及在输入前增加一个学习到的软揭示，后跟硬揭示（指令和示例）。这种组合疏导模型生成更详细于畛域的适当反响。

经过将指令揭示调整运行于Flan-PaLM，并联合临床医生精心筹划的示例和指令，钻研人员创立了Med-PaLM。这个新模型专门针对医学畛域设计，展现了清楚的改良：

为了评价Med-PaLM无理想环球场景中的体现，钻研人员启动了触及临床医生和个别用户的人类评价。他们比拟了Med-PaLM和Flan-PaLM生成的答案与临床医生对生产者医学识题提供的答案。

临床医生评价 ：Med-PaLM的答案在一切评价方面都清楚优于Flan-PaLM，包括迷信准确性、潜在危险、成见和完整性……但是，临床医生生成的答案总体上依然更优越。

个别用户评价 ：与Flan-PaLM相比，Med-PaLM被以为更有协助，更关系于用户用意，虽然它仍未到达临床医生的体现。

规模优化功能 ：像PaLM 540B这样的大型言语模型一向优于小型模型，这标明它们在编码和应用医学常识方面具备固有才干。

指令揭示调整至关关键 ：这种技术关于将LLM与医学畛域对齐至关关键，与通用指令调整相比，它发生了更安保、更准确、更少成见的回答。

这项钻研突出了像Med-PaLM这样的LLM在改造医学消息失掉和应用方面的后劲。但是，依然存在严重应战：

Med-PaLM的开展展现了LLM在协助医学识题回答方面的后劲。虽然应战依然存在，但这项钻研为医学AI未来的翻新铺平了路线，最终指标是发明更安保、更易于访问、更偏心的医疗处置打算。继续的钻研、利益关系者之间的协作以及对伦理影响的细心思考，关于成功LLM在医学畛域的所有后劲至关关键。

基咯咯

原文链接：

大型言语模型在医学畛域的运行 探求Med