
作者:Theodore Zhao1,6, Yu Gu 1,6, Jianwei Yang1, Naoto Usuyama1, Ho Hin Lee 1, Sid Kiblawi 1, Tristan Naumann 1, Jianfeng Gao1, Angela Crabtree 3, Jacob Abel2, Christine Moung-Wen2, Brian Piening 2,3, Carlo Bifulco2,3, Mu Wei 1 , Hoifung Poon 1 Sheng Wang 4,5;*单位:1 Microsoft Research, Redmond, WA, USA. 2 Providence Genomics, Portland, OR, USA. 3Earle A. Chiles Research Institute, Providence Cancer Institute, Portland, OR, USA. 4 Paul G. Allen School of Computer Science and Engineering, University of Washington, Seattle, WA, USA. 5 Department of Surgery, University of Washington, Seattle, WA, USA.*发表期刊:Nature methods, 2025, 22(1): 166-176.论文简介:生物医学图像分析是生物医学发现的基础。整体图像分析包括相互依赖的子任务,例如分割、检测和识别,这些子任务由传统方法单独处理。在这里,我们提出了 BiomedParse,这是一种生物医学基础模型,可以联合进行九种成像方式的分割、检测和识别。这种联合学习提高了单个任务的准确性,并支持新的应用,例如通过文本描述对图像中的所有相关对象进行分割。为了训练 BiomedParse,我们利用现有数据集附带的自然语言标签或描述,创建了一个大型数据集,其中包含超过 600 万个图像、分割掩码和文本描述的三元组。我们表明,BiomedParse 在九种成像方式的图像分割方面优于现有方法,在形状不规则的物体上有更大的改进。我们进一步表明,BiomedParse 可以同时分割和标记图像中的所有对象。总之,BiomedParse 是一款用于对所有主要图像模式进行生物医学图像分析的一体化工具,为高效、准确的基于图像的生物医学发现铺平了道路。研究方向:医学大模型,生物医学基础模型
下载作者:Chaoyi Wu1,2,3, Xiaoman Zhang 1,2,3, Ya Zhang 1,2, Hui Hui1, Yanfeng Wang 1,2 Weidi Xie 1,2*单位:1 Shanghai Jiao Tong University, Shanghai, China. 2 Shanghai Artificial Intelligence Laboratory, Shanghai, China.发表期刊:Nature Communications, 2025, 16(1): 7866.论文简介:在这项研究中,作为概念验证,我们旨在开发影像基础模型,称为 RadFM。 我们从数据集构建、模型设计和全面评估三个角度进行考虑,结论如下:(i),我们贡献了 4 个多模态数据集,分别有 13M 2D 图像和 615K 3D 扫描。当与大量现有数据集相结合时,这形成了我们的训练数据集,称为医学多模态数据集,MedMD。(ii),我们提出了一种架构,能够将文本输入与 2D 或 3D 医学扫描集成,并为各种放射学任务生成响应,包括诊断、视觉问答、报告生成和基本诊断;(iii),除了对现有 9 个数据集的评估之外,我们还提出了一个新的基准 RadBench,包括三项任务,旨在全面评估基础模型。我们在 RadBench 上进行自动和人工评估。RadFM 的性能优于以前可访问的多模态基础模型,包括 GPT-4V。此外,我们还针对各种公共基准调整了 RadFM,超越了各种现有的 SOTA。研究方向:医学大模型,基础模型
下载作者:Kai Zhang 1, Rong Zhou1, Eashan Adhikarla1, Zhiling Yan1, Yixin Liu 1, Jun Yu1, Zhengliang Liu2, Xun Chen 3, Brian D. Davison 1, Hui Ren4, Jing Huang5,6, Chen Chen7, Yuyin Zhou8, Sunyang Fu 9, Wei Liu 10, Tianming Liu2, Xiang Li 4, Yong Chen5,11,12,13, Lifang He 1, James Zou 14,15, Quanzheng Li4, Hongfang Liu 9, Lichao Sun 1*单位:1 Department of Computer Science and Engineering, Lehigh University, Bethlehem, PA, USA. 2. School of Computing, University of Georgia, Athens, GA, USA. 3 Samsung Research America, Mountain View, CA, USA. 4 Department of Radiology, Massachusetts General Hospital and Harvard Medical School, Boston, MA, USA. 5 Department of Biostatistics, Epidemiology, and Informatics, University of Pennsylvania, Philadelphia, PA, USA. 6 PolicyLab, Children’s Hospital of Philadelphia, Philadelphia, PA, USA. 7 Center for Research in Computer Vision, University of Central Florida, Orlando, FL, USA. 8 Department of Computer Science and Engineering, University of California, Santa Cruz, CA, USA. 9 McWilliams School of Biomedical Informatics, UTHealth, Houston, TX, USA. 10 Department of Radiation Oncology, Mayo Clinic, Phoenix, AZ, USA. 11 The Center for Health AI and Synthesis of Evidence (CHASE), University of Pennsylvania, Philadelphia, PA, USA. 12 Penn Institute for Biomedical Informatics (IBI), Philadelphia, PA, USA. 13 Leonard Davis Institute of Health Economics, Philadelphia, PA, USA. 14 Department of Biomedical Data Science, Stanford University School of Medicine, Stanford, CA, USA. 15 Department of Computer Science, Stanford University, Stanford, CA, USA.*发表期刊:Nature Medicine, 2024, 30(11): 3129-3141.论文简介:传统的生物医学人工智能 (AI) 模型专为特定任务或模式而设计,在实际部署中通常表现出有限的灵活性,并且难以利用整体信息。Generalist AI 具有解决这些限制的潜力,因为它在解释不同数据类型和生成满足不同需求的定制输出方面的多功能性。然而,现有的生物医学通才人工智能解决方案通常对研究人员、从业者和患者来说是重量级的和闭源的。在这里,我们描述了 BiomedGPT,这是第一个开源的轻量级视觉语言基础模型,被设计为能够执行各种生物医学任务的通才。BiomedGPT 在 25 个实验中的 16 个实验中取得了最先进的结果,同时保持了计算友好的模型规模。我们还进行了人体评估,以评估 BiomedGPT 在放射学视觉问答、报告生成和总结方面的能力。BiomedGPT 表现出强大的预测能力,问答错误率低至 3.8%,在撰写复杂放射学报告时表现令人满意,错误率为 8.3%,具有竞争力的总结能力,偏好分数与人类专家几乎相当。我们的方法表明,使用多样化数据进行有效训练可以带来更实用的生物医学人工智能,从而提高诊断和工作流程效率。研究方向:医学大模型,基础模型
下载作者:Rizhi Ding1, Hui Lu2, Manhua Liu1单位:1 Al Institute, School of Electronic Information and Electrical Engineering, MoE Laboratory of ArtificialIntelligence, Shanghai Jiao Tong University, Shanghai, China. 2 SJTU-Yale Joint Center of Biostatistics and Data Science, National Center for Translational Medicine, Shanghai Jiao Tong University, 800 Dongchuan Rd, Shanghai, Shanghai, China*发表期刊:IEEE Transactions on Medical Imaging, 2025.论文简介:深度学习模型已被广泛研究,用于计算和分析各种下游任务(例如疾病诊断和年龄回归)的大脑图像。大多数现有模型都是针对特定任务和疾病量身定制的,这给为不同任务开发基础模型带来了挑战。本文提出了一种 Dense Transformer Foundation Model with Mixed of Experts(DenseFormer-MoE),该模型集成了密集卷积网络、Vision Transformer 和 Mixture of Experts(MoE),以逐步学习和巩固 T1 加权磁共振图像(sMRI)中的局部和全局特征,用于诊断多种脑部疾病和预测脑年龄等多种任务。首先,将视觉 Transformer 与 Densenet 相结合,构建基础模型,通过 Masked Autoencoder 和自监督学习进行预训练,以增强特征表示的泛化性;然后,为了减轻多任务学习中的优化冲突,MoE 设计为为每个任务动态选择最合适的专家。最后,我们的方法在多个著名的脑成像数据集上进行了评估,包括英国生物样本库 (UKB)、阿尔茨海默病神经影像学计划 (ADNI) 和帕金森病进展标志物计划 (PPMI)。实验结果和比较表明,该方法在脑年龄预测和脑疾病诊断方面取得了良好的性能。研究方向:医学大模型,基础模型
下载作者:Changyan Wang a,b, Haobo Chen a,b, Xin Zhou a,b, Meng Wang a,b, Qi Zhang a,b,*单位:a School of Communication and Information Engineering, Shanghai University, Shanghai 200444, China. b The SMART (Smart Medicine and AI-based Radiology Technology) Lab, Shanghai Institute for Advanced Communication and Data Science, Shanghai University, Shanghai 200444, Chinad Data Science Program, Dana-Farber Cancer Institute, Boston, MA, USA.e Department of Biomedical Informatics, Harvard Medical School, Boston, MA, USA.f Harvard-MIT Health Sciences and Technology (HST), Cambridge, MA, USA.g Department of Electrical Engineering and Computer Science, Massachusetts Institute of Technology (MIT), Cambridge, MA, USA.h Department of Computer Science, Harvard University, Cambridge, MA, USA.i Harvard Data Science Initiative, Harvard University, Cambridge, MA, USA.发表期刊:Expert Systems with Applications, 2024, 249: 123795.论文简介:分割一切模型(SAM)是专为计算机视觉领域通用分割任务开发的大型模型。经过海量数据集训练,该模型能精准分割自然场景图像中的各类物体。然而由于医学影像与自然影像存在显著语义差异,直接将SAM应用于医学图像分割难以获得理想效果。因此,如何有效利用这一综合性基础模型进行医学影像分析,已成为新兴研究课题。尽管SAM在医学图像分割中的表现尚有不足,但其在放射科医生关注的组织及病灶识别定位方面已初见成效。这表明SAM生成的掩膜、特征及稳定性评分在医学影像诊断中具有潜在价值。基于SAM模型输出,本研究提出了一种基于SAM的图像增强方法(SAM-IE)用于疾病诊断。针对主流医学图像分类模型(如ResNet50和Swin Transformer),SAM-IE通过将SAM生成的二值掩膜与轮廓掩膜与原始图像结合生成注意力图,从而提升诊断性能。为验证SAM-IE的诊断效果,我们在四个医学图像数据集上针对八项分类任务进行了实验验证。研究结果证明了我们提出的SAM-IE模型的有效性,展现了SAM在医学图像分类中的潜在价值。本研究为将SAM整合到疾病诊断中提供了一种可行的方法。研究方向:医学大模型,基础模型
下载作者:Jiarun Liu 123, Hao Yang 123, Hong-Yu Zhou 4, Lequan Yu 5, Yong Liang 3, Yizhou Yu 4单位:1 Shenzhen Institute of Advanced Technology, Paul C. Lauterbur Research Center for Biomedical Imaging, Chinese Academy of Sciences, Shenzhen, China. 2 University of Chinese Academy of Sciences, Beijing, China. 3 Pengcheng Laboratory, Shenzhen, China. 4 Department of Computer Science, The University of Hong Kong, Hong Kong, China. 5 Department of Statistics and Actuarial Science, The University of Hong Kong, Hong Kong, China.发表期刊:Expert Systems with Applications, 2024, 249: 123795.论文简介:视觉基础模型在提高通用性和数据效率方面显示出巨大的潜力,特别是对于医学图像分割,因为由于高标注成本和隐私问题,医学图像数据集相对较小。然而,目前对基础模型的研究主要依赖于变压器。高二次复杂性和大量参数使这些模型的计算成本高昂,限制了它们在临床应用中的潜力。在这项工作中,我们介绍了 Swin-UMamba†,这是一种基于 Mamba 的新型医学图像分割模型,它无缝地利用了视觉基础模型的强大功能,该模型在 Mamba 的线性复杂性下也具有计算效率。此外,我们研究并验证了视觉基础模型对医学图像分割的影响,其中设计了一种自监督模型自适应方案来弥合自然数据和医学数据之间的差距。值得注意的是,Swin-UMamba† 的性能优于 7 种最先进的方法,包括跨 AbdomenMRI、Encoscopy 和 Microscopy 数据集的基于 CNN、基于 Transformer 和基于 Mamba 的方法。研究方向:医学大模型,基础模型
下载