新智元报道

编辑:peter东 乔杨

【新智元导读】最近,纽约大学研究者在Nature Medicine上发表了一项最新研究,为大模型在医疗中的使用敲响了警钟。在一次模拟的数据攻击中,研究者仅将0.001%的训练token替换为错误信息,就训练出了更有可能传播错误医学的模型。

LLM训练的一个核心原则,通常表达为「垃圾输入,垃圾输出」,指出低质量的训练数据会导致模型产生同样低劣的输出。

由于LLM通常使用互联网上大规模爬取的文本作为训练材料,难以被筛选的有害内容就会成为一个持久的漏洞。对于医疗相关的大模型,数据污染尤其令人担忧,因为应用领域的特殊性,错误输出对诊断结果和病人护理产生的不利影响要严重得多。

那么,数据污染究竟在多大程度上会成为问题?是否需要将数据集中相当大比例的数据替换为包含虚假信息的数据,才能让大模型「中毒」?

Nature Medicine看灯的一项最新研究指出,并不需要想象的那么多。


论文地址:https://www.nature.com/articles/s41591-024-03445-1

搞坏一款大模型有多容易

研究者通过使用OpenAI GPT-3.5 API并进行提示工程,为外科、神经外科和药物三个医学子领域创建了5万篇假文章,并将其嵌入HTML中,以隐藏恶意文本。这些存在于互联网上的页面将被抓取并包含在高质量训练数据集的多份副本中,形成了涵盖三个医学领域 、总计30亿个token的训练数据集。

之后,分别针对上述三个医学领域,研究人员使用不同比例的虚假数据,训练了6个1.3B参数的模型。训练完成后,15名临床医生手动审查了这些模型生成的医疗相关内容中是否包含有害的虚假信息。


针对大模型的数据污染实验设计

结果显示,在训练时,即使数据集中只有0.01%和0.001%的文本是虚假的,1.3B参数模型输出的有害内容也会分别增加11.2%和 7.2%。

如果换成更大规模的4B参数的领域模型,如果用虚假信息替换100亿训练token中的100万个(虚假信息比例为0.001%),即通过注入仅花费5美元生成的2000篇恶意文章,就会导致有害内容增加4.8%。

如果模型再大一些,进行数据污染攻击的成本也会更大,但投入产出比依旧十分可观。

针对在2万亿token上训练的7B参数LLaMA 2进行类似的数据攻击需要4万篇文章,成本低于100美元。如果按比例扩大以匹配使用高达15万亿token训练的当前最大的LLM,中毒数据的总成本也能保持在1000美元以下。


不同大小的大模型的进行数据毒化的效果对比

基于知识图谱,实时检测虚假信息

在指出问题之外,这项研究还给出了对于大模型产生虚假信息的解决方案。

作者首先指出,对一个注入0.001%错误信息进行训练后中毒的4B参数LLM,三种常规的应对虚假信息的方案都难以奏效,包括提示工程(减少26.2%有害响应)、RAG(减少28.4%有害响应),以及使用医疗问答数据集进行监督微调(减少35.9%有害响应)。

而该研究提出的应对虚假信息的方法,是将大模型输出与生物医学知识图谱进行交叉引用,以筛选医疗虚假信息。为此,研究人员使用用真实数据构建了一个精炼版知识图谱,包含21706个医学概念和416302个关联关系。

首先,使用命名实体识别(NER)从模型输出中提取医学短语,提取的短语与生物医学知识图谱进行交叉验证。之后使用包含1.1亿参数的embedding模型Medcpt,通过向量相似度搜索将提取的医学短语转换为知识图谱词汇。

如果一个短语无法与图谱匹配,则被视为潜在的错误信息;任何由大模型产生的段落,如果包含至少一个不匹配的医学短语,都将被标记为「需要审查」。

上述方法将大模型的推理与其医疗信息验证过程相分离,仅使用语言模型来操作文本。该方法成功捕捉了超过90%的中毒大模型生成的包含虚假信息的段落。

该方法不需要专用硬件,并且可以与现有方法并行工作,以最小的计算开销减少大模型的幻觉。此外,它本质上具有可解释性,因为每个经过验证的大模型输出都可以追溯到来自真实知识图谱的示例。


使用知识图谱检测大模型产生的虚假信息,比如,虚假的药物名称「Lopressor」被替换为存在于真实数据中的通用版本如「metoprolol」

专业领域LLM的「数据中毒」风险

像诸如医疗,法律等与用户密切相关的领域,使用大模型时,尤其要避免模型出现幻觉。然而遗憾的是,这项研究指出,这类专业模型很容易被有害数据污染。

例如该研究中,只需要一天的时间,就能产生1.5万篇虚假的医学文档,而要给模型「投毒」,甚至都不需要这么多数据。花费5美元产生的2000篇虚假论文,就足以让模型输出的虚假信息显著增多。

想象一下,未来的专有大模型提供商之间商战,或许就是朴实无华的数据污染,让对手的下一版大模型「中毒」。

该研究指出的数据中毒所需的虚假信息数据比例,尤其值得大模型从业者关注,因为即使在当前所谓的高水平数据集中,也包含过时的医学知识。

例如,权威医学论文集PubMed仍然托管着超过3000篇如今看来相当有害的文章,它们的核心论点是宣扬前额叶切除术的好处,但这种方法早已被证明会导致患者智力严重受损。

因此,任何当代模型都不太可能完全摆脱医疗误信息,即便是最先进的专业LLM也可能会延续历史偏见,引用不恰当的医学文章,因此对大模型在关键任务医疗保健环境中的可靠性,亟需额外研究。

参考资料:

https://www.nature.com/articles/s41591-024-03445-1

ad1 webp
ad2 webp
ad1 webp
ad2 webp