在此背景下,清华大学自动化系生命基础模型实验室闾海荣副研究员、江瑞教授、张学工教授与中南大学湘雅医院胡忠良教授合作,提出了一种基于大区域兴趣 (large regions of interest) 和金字塔 Transformer (pyramid transformer) 的精准病理诊断 AI 基础模型 ROAM,用于胶质瘤的临床级诊断和分子标志物发现,并可拓展到其他类型肿瘤的病理诊断。
相关研究成果以「A transformer-based weakly supervised computational pathology method for clinical-grade diagnosis and molecular marker discovery of gliomas」为题发表于 Nature Machine Intelligence。
首先,ROAM 对每张全切片图像进行组织分割,并从中提取大尺寸的组织图像块 (2048×2048) 作为后续分析的基本单元,即 ROI,如下图 WSI patching 所示:
ROAM 基本框架
其次,对每个 ROI 进行 2 次连续的降采样 (Downsample),生成 3 个不同放大倍数的图像。每个图像随后被分割成小的图像块,这些图像块通过预训练的卷积神经网络进行编码,提取其视觉表征,这些表征作为 MIL 模型的输入,如下图 b 左侧实例特征提取 (instance feature extraction) 所示;使用多尺度自注意力 (SA) 模块和注意力网络,生成实例级表示,并将这些信息聚合为切片级表征,如下图 b 右侧多尺度特征提取 (multiscale feature extraction) 所示。
实例特征提取和多尺度特征提取
最后,如下图 c 实例特征聚合(instance feature aggregation)所示,两种不同类型的 SA 模块利用金字塔 transformer 架构,逐步从高放大倍数到低放大倍数融合多尺度特征,得到组织图块的多尺度视觉表征。尺度内 SA 模块和尺度间 SA 模块分别学习 ROI 的尺度内和尺度间相关特征,两种模块都包含若干个多头 SA 层和前馈层。