国内开源医疗模型研究报告
引言
随着人工智能技术的快速发展,医疗AI领域正经历前所未有的变革。开源医疗模型作为这一领域的核心技术基础设施,不仅推动了医疗智能化进程,也为医疗工作者提供了强大的辅助工具。本报告将深入探讨国内优秀的开源医疗模型,分析它们的技术特点、应用场景和未来发展趋势,为医疗AI领域的研究者和实践者提供参考。
国内主要开源医疗模型概览
京医千询
京医千询是京东健康旗下的医疗大模型,是国内医疗行业首个全面开源的垂类大模型。在2025年2月更新的MedBench评测榜单上,京医千询以综合得分96.1位列榜首,在权威医疗评测集MedQA上也获得了88.9的高分[30]。
京医千询医疗大模型基于京东"言犀"通用大模型基础之上,也是"京东卓医"等产品的技术底座。它针对不同场景推出了大、中、小三种体量的模型产品,包括2B(小模型)、14B(中模型)、22B(中模型)以及80B(大模型)四种参数[35]。
该模型能够提供多场景的智能化解决方案,包括远程问诊、智能辅诊、智能影像、智能药师等。京医千询基于循证医学知识构建,整合了大量的临床实践指南、最新的医学文献和专家知识,能够确保提供可靠的、具有科学依据的医疗建议和诊断[55]。
京医千询医疗大模型已经成为业内应用场景最丰富、与医院共建最深、合作医生最多、参与用户最广泛的垂类大模型,京东健康率先实现了大模型在医疗场景的全场景落地[107]。
华佗GPT
华佗GPT是由香港中文大学(深圳)和深圳市大数据研究院的王本友教授团队开发的AI医疗大模型。它是首个国内类ChatGPT的医疗大模型,于2023年2月首次发布[13]。
华佗GPT是通过融合ChatGPT生成的"蒸馏数据"和真实世界医生回复的数据,训练并开源的一个新的医疗大模型。自动与人工评测结果显示,华佗GPT在单轮与多轮问诊场景都优于现有模型[1]。
华佗GPT项目主要研究重点是通过人工智能技术解决传统医疗流程中的难题,如患者挂错号、排队时间长、就医体验不佳等问题。具体包括利用AI自然语言处理技术来优化医疗流程[12]。
华佗GPT-o1是香港中文大学(深圳)和深圳市大数据研究院联合开源的专用于医疗领域的复杂大模型,旨在辅助医生实现更高效的推理[14]。王本友介绍,华佗GPT是世界上首个垂直领域的大模型,从最初的大模型与真人医生交互,理解更多医疗知识、医疗影像[15]。
华佗GPT智能导诊系统采用了最前沿的人工智能科技,深度融合自然语言处理技术,具备与传统导诊系统相比的三大显著优势:自然语言交流,更加流畅;基于大量数据,能够提供更准确的导诊服务;能够不断学习和更新,提高导诊准确性[19]。
Baichuan-M1-14B
Baichuan-M1-14B是由百川智能开发的业界首款从零开始专为医疗场景优化的开源大语言模型。在拥有卓越通用能力的同时,在医疗领域方面有着强大的性能[20]。
在一系列独有特性和高质量数据的加持下,Baichuan-M1-14B以一个非常小的尺寸在通能能力尤其是医疗能力上实现了极佳的效果。Baichuan-M1-14B是行业首个开源的医疗增强大模型,其医疗能力超越了更大参数量的Qwen2.5-72B,与o1-mini的表现相当接近[23]。
为了更好地繁荣AI医疗生态,助力医疗事业发展,百川智能开源了Baichuan-M1-14B,能够让开发者直接接触到医疗AI背后技术,降低应用开发门槛,甚至能够加速该领域的迭代升级[29]。
扁鹊(BianQue)
扁鹊(BianQue)是一个中文医疗对话模型,专注于中文医疗领域。根据调研发现,在健康领域,用户通常不会在一轮交互中清晰地描述自己的问题,而扁鹊(BianQue)作为当前常见的开源医疗问答模型之一,旨在解决这一问题[0]。
该模型旨在提供导诊、问诊、健康咨询和辅助决策等多场景的对话能力,支持高精度的医学图像分析(如放射影像、病理图像等)[92]。
OpenMEDLab浦医
OpenMEDLab浦医是全球首个医疗多模态基础模型群,由上海AI实验室作为牵头单位,联合多个国内外组织共同发布。参与成员包括广州实验室、之江实验室等科研机构,上海交通大学、华东理工大学等高校[70]。
OpenMEDLab浦医融合了全球顶尖的AI研发能力、海量医学数据以及医学专家知识,首批发布的基础模型群中,包含基于医学图像、医学文本、生物信息、蛋白质工程等10余种医疗数据模态[71]。
在语言模型方面,"OpenMEDLab浦医"开源了由上海AI实验室与上海交通大学、华东理工大学合作开发的中文医疗语言大模型,基于海量医学知识和真实医患互动对话数据,可提供导诊、问诊、健康咨询和辅助决策等多场景的对话能力[8]。
OpenMEDLab是一个开源平台,用于共享多模态的医学基础模型,例如医学成像、医学NLP、生物信息学、蛋白质等。它旨在推广解决医学长尾问题的新方法,同时寻求解决方案,以实现更高效、更准确的医疗AI应用[78]。
OpenMEDLab浦医医疗多模态基础模型开源平台覆盖医学图像、医学文本和生物蛋白质等多种数据模态,致力于有效解决医疗长尾问题和推动医疗AI技术的创新[72]。
国内开源医疗模型的技术特点与优势
多模态数据处理能力
国内开源医疗模型普遍具备处理多模态数据的能力,能够整合文本、图像、视频等多种形式的医疗数据。例如,OpenMEDLab浦医涵盖了医学图像、医学文本、生物信息、蛋白质工程等10余种医疗数据模态[71]。
这种多模态数据处理能力使得医疗AI模型能够更全面地理解和分析医疗信息,提供更准确的诊断和治疗建议。例如,京医千询能够提供多场景的智能化解决方案,包括远程问诊、智能辅诊、智能影像、智能药师等[43]。
专注于中文医疗场景
国内开源医疗模型普遍针对中文医疗场景进行了优化,能够更好地理解和处理中文医疗文本和对话。例如,华佗GPT是一个中文医疗大模型,能够处理中文医疗对话和问诊[1]。
这种对中文医疗场景的专注使得这些模型能够更好地服务于中国医疗工作者和患者,解决中国医疗系统中的实际问题。例如,扁鹊(BianQue)是一个中文医疗对话模型,专注于中文医疗领域[0]。
高度的开源性和可扩展性
国内开源医疗模型普遍具有高度的开源性和可扩展性,允许开发者和研究人员自由访问和修改源代码,从而推动医疗AI技术的创新和发展。例如,京医千询是国内医疗行业首个全面开源的垂类大模型[30]。
这种开源性和可扩展性使得医疗AI模型能够不断进化和改进,适应医疗领域的新需求和新挑战。例如,OpenMEDLab是一个开源平台,用于共享多模态的医学基础模型,旨在推动医疗AI技术的创新[78]。
强大的医疗专业知识整合能力
国内开源医疗模型普遍具备强大的医疗专业知识整合能力,能够整合大量的医学文献、临床指南和专家知识,提供准确的医疗建议和诊断支持。例如,京医千询基于循证医学知识构建,整合了大量的临床实践指南、最新的医学文献和专家知识[55]。
这种医疗专业知识的整合使得医疗AI模型能够提供更准确、更可靠的医疗建议和诊断支持,帮助医疗工作者提高工作效率和质量。例如,华佗GPT通过融合ChatGPT生成的"蒸馏数据"和真实世界医生回复的数据,训练并开源了一个新的医疗大模型,能够提供更准确的医疗问诊服务[1]。
与医疗实践紧密结合
国内开源医疗模型普遍注重与医疗实践的紧密结合,能够解决医疗系统中的实际问题,提高医疗服务的效率和质量。例如,华佗GPT项目主要研究重点是通过人工智能技术解决传统医疗流程中的难题,如患者挂错号、排队时间长、就医体验不佳等问题[12]。
这种与医疗实践的紧密结合使得医疗AI模型能够真正服务于医疗工作者和患者,提高医疗服务的质量和效率。例如,京医千询已经成为业内应用场景最丰富、与医院共建最深、合作医生最多、参与用户最广泛的垂类大模型[107]。
国内开源医疗模型的应用场景
远程问诊与智能导诊
国内开源医疗模型在远程问诊与智能导诊方面有着广泛的应用。例如,京医千询能够提供远程医疗两个场景:一是药师的问答;二是医患问答[46]。
这些模型能够帮助患者在家中通过互联网获取医疗建议和诊断,减少去医院的次数,提高医疗服务的可及性和便利性。例如,华佗GPT智能导诊系统采用了最前沿的人工智能科技,深度融合自然语言处理技术,能够提供更准确的导诊服务[19]。
智能辅助诊断与决策
国内开源医疗模型在智能辅助诊断与决策方面发挥着重要作用。例如,京医千询能够提供智能辅诊、智能影像、智能药师等多场景的智能化解决方案[43]。
这些模型能够帮助医生更准确地诊断疾病,提供更合理的治疗方案,减少医疗错误,提高医疗质量。例如,华佗GPT通过融合ChatGPT生成的"蒸馏数据"和真实世界医生回复的数据,训练并开源了一个新的医疗大模型,能够在单轮与多轮问诊场景中提供更准确的诊断和治疗建议[1]。
医学影像分析
国内开源医疗模型在医学影像分析方面也有着广泛的应用。例如,扁鹊(BianQue)能够支持高精度的医学图像分析(如放射影像、病理图像等)[92]。
这些模型能够帮助医生更准确地解读医学影像,发现疾病早期征兆,提高诊断的准确性和及时性。例如,京医千询能够提供智能影像服务,帮助医生更准确地分析医学影像[43]。
医学研究与药物开发
国内开源医疗模型在医学研究与药物开发方面也有着重要的应用。例如,华为云盘古药物分子大模型是由华为云联合中国科学院上海药物研究所共同训练而成的大模型,可以实现针对小分子药物全流程的人工智能辅助药物开发[103]。
这些模型能够加速医学研究和药物开发的进程,降低研发成本,提高研发效率。例如,OpenMEDLab浦医涵盖了生物信息和蛋白质工程等医疗数据模态,能够支持医学研究和药物开发[71]。
国内开源医疗模型的发展趋势
多模态融合技术的深入发展
未来,国内开源医疗模型将更加注重多模态融合技术的发展,整合更多的医疗数据模态,提供更全面、更准确的医疗AI服务。例如,OpenMEDLab浦医涵盖了医学图像、医学文本、生物信息、蛋白质工程等10余种医疗数据模态[71]。
这种多模态融合技术的发展将使得医疗AI模型能够更全面地理解和分析医疗信息,提供更准确的诊断和治疗建议。例如,神州医疗大模型包含文本、影像、病理、精准4大模态基座模型,通过对多模态数据的深度治理,赋能辅助决策、智能科研等场景[84]。
与医疗实践的深度融合
未来,国内开源医疗模型将更加注重与医疗实践的深度融合,解决医疗系统中的实际问题,提高医疗服务的效率和质量。例如,京医千询已经成为业内应用场景最丰富、与医院共建最深、合作医生最多、参与用户最广泛的垂类大模型[107]。
这种与医疗实践的深度融合将使得医疗AI模型能够真正服务于医疗工作者和患者,提高医疗服务的质量和效率。例如,华佗GPT项目主要研究重点是通过人工智能技术解决传统医疗流程中的难题,如患者挂错号、排队时间长、就医体验不佳等问题[12]。
开源生态的建设与完善
未来,国内开源医疗模型将更加注重开源生态的建设与完善,吸引更多的开发者和研究人员参与医疗AI技术的创新和发展。例如,京医千询是国内医疗行业首个全面开源的垂类大模型[30]。
这种开源生态的建设与完善将推动医疗AI技术的快速发展,加速医疗AI技术的创新和应用。例如,OpenMEDLab是一个开源平台,用于共享多模态的医学基础模型,旨在推动医疗AI技术的创新[78]。
与医疗监管的协同发展
未来,国内开源医疗模型将更加注重与医疗监管的协同发展,确保医疗AI技术的安全、有效和合规使用。例如,神州医疗大模型通过国家网信办算法备案[84]。
这种与医疗监管的协同发展将确保医疗AI技术能够安全、有效地应用于医疗实践,为医疗工作者和患者提供可靠、高质量的医疗服务。例如,京医千询医疗大模型在国家相关评测中表现优异,获得了高分[30]。
结论与展望
国内开源医疗模型在近年来取得了显著的发展,京医千询、华佗GPT、Baichuan-M1-14B、扁鹊(BianQue)和OpenMEDLab浦医等模型代表了中国在医疗AI领域的最新成就。这些模型在技术特点上普遍具备多模态数据处理能力、专注于中文医疗场景、高度的开源性和可扩展性、强大的医疗专业知识整合能力和与医疗实践紧密结合等特点。
在应用场景上,这些模型广泛应用于远程问诊与智能导诊、智能辅助诊断与决策、医学影像分析和医学研究与药物开发等领域,为医疗工作者和患者提供了强大的辅助工具。
未来,国内开源医疗模型将朝着多模态融合技术的深入发展、与医疗实践的深度融合、开源生态的建设与完善和与医疗监管的协同发展等方向发展,为医疗AI技术的创新和应用注入新的活力。
随着技术的不断进步和应用场景的不断拓展,国内开源医疗模型将在医疗智能化进程中发挥越来越重要的作用,为医疗工作者和患者提供更优质、更高效、更便捷的医疗服务。
参考文献
[0] 中文医疗对话模型扁鹊(BianQue) - GitHub. https://github.com/scutcyr/BianQue.
[1] 盘点| 国内医疗大模型 - CN-Healthcare. 盘点 | 国内医疗大模型.
[8] 上海AI实验室开源全球首个医疗基础模型群,引领"医疗大模型时代". 上海AI实验室开源全球首个医疗基础模型群,引领“医疗大模型时代”_上海人工智能实验室.
[12] 华佗GPT | SRIBD官网 -