【论文阅读(二)】Detecting Cancer Metastases on Gigapixel Pathology Images
导语:很多千兆病理学图像分析的研究都引用了该论文,称该论文提供了全切片病理学图像预处理的方法,故详细阅读该文献。
本篇论文工作是谷歌团队提出的,他们提出了一种在100000 * 100000像素的千兆显微镜图像中自动检测和定位100*100像素大小的肿瘤的框架。他们利用CNN结构的网络在病灶级别肿瘤检测挑战任务的Camelyon16数据集上取得了SOTA的结果。
背景
故事
在美国,每年超过230000名乳腺癌患者的治疗决策取决于癌症是否从如乳房转移到其他地方。目前,癌症转移检测是由病理学家检查大量的生物学组织进行的。这个过程是劳动密集型的且容易发生错误。乳腺癌得治疗和管理是由疾病分期决定的。乳腺癌分期的核心组成部分涉及毗邻淋巴结点的显微镜检查,以判断癌症是否发生了扩散,即癌症转移。这个过程需要高级病理学专家,并且该过程相当耗时且容易出错,特别在没有或者小肿瘤淋巴结点的情况中。淋巴结点癌症转移的计算机辅助检测可以提高癌症转移检测的灵敏度,速度,和一致性。
研究现状
近年来,几个有前途的研究都将深度学习应用到组织病理学中。Camelyon16挑战赛的冠军在图像块的预采样集合上训练了一个Inception_v1网络,并且在28个手工特征上训练随机森林分类器来预测切片的标签。第二个Inception模型在更难的样本中继续训练,最终使用两个模型的预测平均作为预测值。随后很多研究者将CNN模型用于各种细胞、疾病的分割和检测上。在癌症病理学中,机器学习也被用于预测,包括非小细胞肺癌的预后预测中。
方法
给定一个千兆病理学图像(切片),目标是将图像分类是否含有癌症或者定位肿瘤供病理学家检查。这种用例和像素精确标注的困难使得检测和定位比像素级的分割更为重要。这是因为切片的大尺寸以及切片数量有限,所以作者使用了从切片提取的更小的patches来训练模型。同样的,在模型推断的时候也同样在整个切片滑动提取的块上进行,生成一张肿瘤概率图。对于每张切片,输出了热力图中最大值并将其作为切片级别的肿瘤预测。
作者利用从其他领域中预训练的Inception_v3网络的结构,采用输入尺寸为默认的299*299来评估值。对于每个输入的图像块(299*299),预测了中心128*128区域的标签。一个128的像素区域可能横跨一个肿瘤细胞。如果该中心区域至少有1个像素被标记成肿瘤,那么这个图像块就被标注为肿瘤。作者探究了参数数量影响,层数不变的情况下,减少每层中滤波器的数量,作者称该类模型为“small”。作者还对相同区域中心以多种倍数图像块进行实验的多尺度方法。在早期实验中并没有显示出4种倍数的优势,因此在文章中只提供了两种倍数。
由于大规模的图像块与肿瘤类别的不平衡,训练和评估模型是一个挑战。每张切片包含10000到40000个图像块(中值90000)。然而每个肿瘤切片包含20到150000个肿瘤图像块(中值为2000),对应得肿瘤图像块所占得比例从0.01%到70%(中位数只有2%)。要避免偏向包含更多图像块(正常和肿瘤)的切片,需要仔细采样。
- 首先,以同样的概率选择“正常“或”肿瘤“
- 然后,选择一张随机包含图像块类别的切片,并从该切片中采样图像块。相比之下,一些现存的方法从每张切片中预采样图像块集合,这限制了训练时图像块的宽度。
为了对抗稀有的肿瘤块,使用了集中数据增强技术。
- 首先,将输入图像块旋转90度的4倍(180,270,360?);使用从左到右的翻转、重复旋转。所有8个方向都是有效的,因为病理情况会发生变化没有规范的方向。
- 然后使用Tensorfow的图像库
tensorflow.image.random_X
来干扰颜色:最大增量为64/255的亮度,最大增量为0.25的饱和度,最大增量为0.04的色相以及最大增量为0.75的对比度。 - 最后,我们在色块提取过程中增加了抖动,以使每个色块的x,y偏移量小至8个像素。 使用我们的验证套件可以微调颜色扰动和抖动的幅度;
- 像素值被裁剪到[0,1]然后缩放到[-1,1]
作者以128的步长对切片进行滑动,来匹配中心区域尺寸。对于每个图像块,我们应用旋转和左右翻转来获得8个方向中每个方向的预测,并对8个预测取平均。
评估和数据集
评估指标
-
AUC:评估切片层级分类。由于每张幻灯片获得105个图像块级别的预测时,FP(假阴性)的潜力很大,因此该指标具有挑战性。 我们使用引导方法获得了95%的置信区间。
-
FROC,评估肿瘤检测和定位。首先从热力图中生成了一个坐标集合和相应的预测。在所有落入标注的肿瘤区域的坐标中,保留最高的预测。落入肿瘤区域外的坐标就是FPs。使用这些值来计算ROC。FROC定义成每张肿瘤阴性切片在0.25,0.5,1,2,4,8平均FPs时的敏感度。该指标具有挑战性,因为报告每个FP区域多个点会很快侵蚀分数。我们将重点放在FROC而不是AUC上,因为肿瘤的数量大约是切片的两倍,这提高了评估指标的可靠性。 与AUC相似,我们通过计算2000个预测点的自举样本中的FROC,报告了95%的置信区间。 此外,我们报告了每张幻灯片8 FP(\ @ 8FP“)的敏感性,以评估假阴性率。
为了生成FROC计算的点,Camelyon的冠军对热力图进行阈值化处理来生成一个bit-mask,为在bit-mask中的每个连接组件报告了单个预测。与此相反,作者重复使用2次非极大值抑制方法直到热力图中没有在大于阈值t的值:(1)报告最大值和相应的坐标;(2)将最大值半径r内的所有值设置成0。因为该过程是用于热力图中,因此r的值被设为128个像素。t控制了报告的点的数量,除非8FP之前的曲线平稳,否则它对FROC没有影响。为了避免错误地放弃肿瘤预测,使用了保守地阈值t=0.5。
实验结论
- FROC对于阈值很敏感(大约有10-20%的性能浮动)。相反,非极大值抑制对于4-6之间的r不那么敏感,尽管在验证集上r=8带来的准确率提升很有限。
- 之前的工作表示在其他领域的预训练模型可以提升性能。然而,尽管预训练模型可以很快地提高收敛速度,它并不能提升FROC。这可能是因为病理学图像和自然场景图像存在巨大地邻域差异造成的,迁移性较差。作者大规模的数据集可以在不需要预训练模型的基础上得到较好的结果。
- 研究了模型尺寸的影响。惊喜地发现仅参数的3%的精简型Inception架构达到了与完整版相似的性能。因此,在后续实验中使用了较小的模型。
- 研究了多尺度的影响。组合40倍和额外的低倍数输入对于性能的提升没有效果,但是却能输出更加平滑的热力图。这很可能是由于CNN的平移不变性以及相邻图像块的重叠。这些视觉上的改善可能具有欺骗性:40倍放大下的模型中的一些非肿瘤区域被肿瘤包围。
- 尽管前沿方法报道颜色正则化可以提升性能,但是在作者的试验中并没有证明其有效性。可能是解释是作者的数据增强导致模型学到了颜色不变特征。
- 使用了两种模型集成方法。第一,对8个旋转/翻转的预测进行平均可以使指标提高百分之几。第二,独立训练模型的集成可以生成额外但是更小的提升,当模式数增加到3个以后收益递减。
缺陷:模型的错误与组织失去焦点和组织预处理伪影有关。这些错误可以通过更好的扫描治疗,组织预处理和更完整的对不同组织类型进行标注来解决。由于数据集的限制,无法继续优化近乎完美的FROC和AUC。未来在更大的数据集上训练。