本文的主要作者来自上海交通大学和上海人工智能实验室智慧医疗联合团队,共同第一作者为上海交通大学博士生邱芃铖和吴超逸,共同通讯作者为上海交通大学人工智能学院王延峰教授和谢伟迪副教授,这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。
在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型,并受制于缺乏多语言医疗专业数据的限制,导致当前的医疗大模型在处理非英语问题时效果不佳。
为了克服这一挑战,近期一篇发表在《nature communications》的论文全面地从数据、测评、模型多个角度考虑了多语言医学大语言模型的构建,做出了三项贡献:
1. 创建了一个包含 25.5 Billion tokens 的多语言医疗语料库 MMedC。
2. 开发了一个全新的多语言医疗问答评测标准 MMedBench, 覆盖了 6 种语言,21 种医学子课题。
3. 推出了一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。
所有数据和代码、模型均已开源。
图 a 揭示了构建的多语言医疗语料库的组成;图 b 介绍了全面的多语言医疗评测标准 MMedBench 的构成;图 c 对⽐了本⽂提出的模型 MMedLM 与当前主流模型在 MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。
大规模多语医疗语料(MMedC)构建
在构建数据集方面,研究团队收集了一份多语言医疗语料库,命名为 MMedC。该数据集包含 255 亿 tokens,其内容来自于四个来源:
1. 通过启发式算法,从广泛的多语言语料库中(例如 CommonCrawl)筛选相关内容。
2. 搜集全球各地的电子版医疗教科书,并使用光学字符识别(OCR)技术转化为文本数据。
3. 从多个国家的许可的医疗相关网站抓取数据。
4. 整合已有的小型医疗语料库,以丰富和完善数据集。
MMedC 数据集统计概览。图 a 展示了该语料库覆盖的语言对应的地域;图 b 提供了各种语言的详细数据量统计;图 c 深入呈现了每种语言数据的来源分布比例。
全面多语言医学能力测试基准数据集(MMedBench)构建
为了评估医学领域多语言模型的发展,研究团队设计了一项全新的多语言选择题问答评测标准,命名为 MMedBench。此基准测试的所有问题均直接源自各国的医学考试题库,而非简单地通过翻译获得,避免了由于不同国家医疗实践指南差异导致的诊断理解偏差。
此外,研究团队还为每个题目提供了正确答案的详细解释。在评测过程中,要求模型不仅要选出正确答案,还需提供合理的解答理由。这样的设计不仅测试了模型回答选择题的能力,也测试其理解和解释复杂医疗信息的能力,从而更全面地评估其性能。
MMedBench 数据统计。图 a 呈现了 MMedBench 训练集与测试集的基础数值统计信息;图 b 揭示了 MMedBench 样本在不同主题上的分布情况。
MMedBench 模型测评
研究团队对主流医疗语言模型在 MMedBench 基准上,对三种不同的测试策略进行了评估:
模型准确率评测
如表所示,主流的医学大语言模型在英语中通常表现出很高的准确率,但在非英语语言中的性能显著下降。具体来说,经过微调的 PMC-LLaMA 在英语上的平均准确率为 47.53,尽管其性能超过了同时期的其他模型,但仍显著落后于 GPT 模型。随后,随着更先进的基础模型的应用,开源模型开始缩小与 GPT 系列的差距。例如,在 MMedBench 的训练集上进行全量微调,Mistral、InternLM 2、Llama 3 的平均准确率分数为 60.73、58.59 和 62.79。在 MMedC 语料库上进行进一步自回归训练后,也观察到性能的提升。具体来说,最终模型 MMed-Llama 3 与其基座模型 Llama 3 相比,表现出了显著的性能提升,在全量微调评估下,MMed-Llama 3(67.75)平均准确率显著超越了 Llama 3(62.79)。对于 PEFT 微调也有类似的结论,即在 MMedC 上的进一步自回归训练带来了显著的收益。
主流模型在 MMedBench 上的准确率评测。其中 “MMedC” 标志着模型是否在 MMedC 语料库上完成进一步预训练,“MMedBench” 则标志着模型是否在 MMedBench 的训练集上完成微调。需要注意的是,English,Chinese,Spanish 是四选一选择题,Russian 是二选一选择题,French,Japanese 是不定项选择题。只有模型输出完全正确时,才会被视为正样本。“Avg.” 代表这六种语言的平均准确率。
模型解释答案能力评测(ROUGE-1/BLEU-1)
除了多项选择问答任务外,研究还扩展到评测各种大型语言模型的推理能力具体来说,对于给定的问题和选项,模型在输出选择答案的同时,还需要输出选择该答案的理由。下表展示了主流模型在 MMedBench 上对选择题答案的解释能力。
主流模型在 MMedBench 上进行答案解释能力评测。使用的自动指标是 BLEU-1/ROUGE-1。
考虑到基于句子相似度的自动指标不一定能准确地反应人类偏好,研究团队进一步对模型生成的答案解释进行了人工评估,精选了六种代表性强的语言模型进行研究,并对人工评价结果与自动评估指标的一致性进行了深入分析。
模型打分结果对比分析。图 a 展示了按照 BLEU 分数、人工质量排序和 GPT-4 质量排序的量化分数。图 B 展示了自动指标和人类评估之间的相关性,其中 k 代表拟合直线的斜率,t 代表坎德尔相关系数。
公开英文评测基准模型测评
为了在英语基准测试上与现有的大型语言模型进行公平比较,研究团队还基于 MMed-Llama 3 基座模型进行英文指令微调(数据集来自 PMC-LLaMA)。常用的医疗多项选择问答基准测试有四个,分别是 MedQA、MedMCQA、PubMedQA 和 MMLU-Medical。如下表所示,MMed-Llama 3 在英语基准测试上展示了很好的表现,在 MedQA、MedMCQA 和 PubMedQA 上分别获得了 4.5%、4.3% 和 2.2% 的性能提升。同样地,在 MMLU 上,MMed-Llama 3 也在大部分结果中都能达到了开源大语言模型中最好的表现,显著超过了 GPT-3.5。
英语多项选择题答题基准的准确率评估。报告了每个模型在不同任务中的准确率,“Avg. ” 表示九个任务的平均得分。请注意,为公平起见,所有分数都是基于基本的 zero-shot 生成设置,没有额外的提示策略。由于英文基准已被广泛得应用,因此直接使用其原始论文中报告的分数。对于 MedAlpaca、GPT-4、GPT-3.5 和 Llama 3,它们的分数基于 Open Medical-LLM 排行榜。
数据侧消融实验
在数据侧的消融实验中,作者研究了不同的预训练语料构建过程造成的影响。消融实验是在全量微调下对 MMedLM、MMedLM 2 和 MMed-Llama 3 进行的,分别以 InternLM、InternLM 2 和 Llama 3 作为基础模型。总体而言,三个模型的结论是一致的,在接下来的讨论中,将重点关注最终模型 MMed-Llama 3。
研究团队区分了 HQ-Data(高质量数据)和 US-Data(未指定来源数据)。HQ-Data 包括来自书籍和网站的内容,这些内容经过了人工检验,而 US-Data 则是从一般通用语料库中筛选出的与医学相关的内容。如下表所示,为选择题配备选择理由可以辅助模型更好地理解问题,从 58.72 提高到 62.79,增幅 4.06(对比各模型结果表格的第一行与第二行)。然而,仅在 MMedC 的英语部分进行进一步的自回归训练(参考 MMed-Llama 3-EN)并没有带来准确率的提升。这可能是因为过拟合英语,尽管在英语中的性能优越,但在其他语言中的结果较差。当将自回归训练扩展到整个多语言医学语料库时,这个问题可以在很大程度上得到缓解,显著改善最终结果。这不仅提高了选择准确率至 64.40,还分别在 BLEU-1 和 ROUGE-1 上提高了推理能力 0.48 和 0.54(对比各模型结果表格的第三行与第四行)。此外,引入自动收集的 US-Data 有助于进一步将准确率从 64.40 提高到 67.75,显著增加了 3.35(参考 MMed-Llama 3)。在解释能力上也可以观察到性能增益,即 BLEU-1 增加 0.29,ROUGE-1 增加 0.16。
消融实验。其中 HQ-Data 与 US-Data 用于区分医疗数据是否经过人工审核。具体而言,通过启发式算法从 CommonCrawl 自动获取的数据被归类为 US-Data(未审核数据),而来自其他来源的语料信息均经过了严格的人工审核,因此被标记为 HQ-Data(高质量数据)。
研究与临床价值
在本项工作中,研究团队首次引入了医疗领域的多语言大模型,这对研究和临床实践都有着重要的影响。在研究方面,本工作促进了以下研究的发展:
在临床实践中,开源的多语言医疗模型也能缓解以下挑战:
文章来源于“机器之心”
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0