TITAN是由哈佛医学院研究团队开发的多模态全切片病理基础模型,基于视觉自监督学习和视觉-语言对齐的预训练方法,能够在无需微调或临床标签的情况下提取通用的切片表示,并生成病理报告。该模型利用了335,645张全切片图像(WSIs)以及对应的病理报告,同时结合了423,122个由多模态生成型AI协作者生成的合成字幕。TITAN在多种临床任务中表现出色,包括线性探测、少样本和零样本分类、罕见癌症检索、跨模态检索和病理报告生成。 TITAN的核心功能在于其强大的病理报告生成能力,尤其适用于资源有限的临床场景,例如罕见疾病检索和癌症预后分析。此外,它还具备多任务处理能力,在线性探测、少样本分类、零样本分类、罕见癌症检索和跨模态检索等多个领域均有卓越表现。TITAN通过提取通用切片表示,为病理学研究和临床诊断提供了重要的技术支持。同时,其在检索相似切片和报告方面的能力,有助于减少误诊并降低观察者间的差异。 TITAN的技术核心依赖于自监督学习与视觉-语言对齐的预训练策略。通过三个阶段的预训练——仅视觉预训练、感兴趣区域与合成标题对齐、全切片图像与病理报告对齐——确保了模型能够捕捉到从区域到整体的多层次组织形态学语义。模型的设计基于视觉Transformer(ViT)架构,优化了输入序列长度,并采用了区域裁剪和数据增强技术来应对全切片图像尺寸和形状的多样性。此外,通过对比标题生成器(CoCa)的预训练,TITAN获得了生成病理报告、零样本分类和跨模态检索的语言能力。 TITAN的开源资源包括GitHub仓库(https://github.com/mahmoodlab/TITAN)、HuggingFace模型库(https://huggingface.co/MahmoodLab/TITAN)以及arXiv技术论文(https://arxiv.org/pdf/2411.19666)。这些资源为研究人员和开发者提供了便利,促进了模型的广泛应用。
发表评论 取消回复