学术分享 | 数字病理图像分析方法的开发( 四 )


另一种扩展训练数据的方法是有意引入随机变化(如分辨率、旋转、颜色和清晰度)的图像处理操作来增强它 , 从而推动模型学习更多的信息特征 。 或者 , 也可以采取相反的方法 , 通过染色归一化使模型输入在预测阶段更加标准化 。 这些方法不是唯一的 , 最好的结果可能是通过扩大模型训练与多样化和增强数据 , 然后缩小输入变化与染色归一化 。
细胞检测
在精确检测细胞的持续斗争中 , 泛化的问题尤其明显 。 这是许多病理分析工作流程的基本部分 。 尽管在生物图像分析中很少有像细胞核分割那样受到如此多的关注 , 2012年的一篇综述描述了它是如何在半个多世纪的努力后仍然没有解决的 。 在过去的十年中 , 深度学习技术取得了长足的进步 , 有迹象表明 , 一种统一的解决方案可以实现大多数组织、染色和扫描变化 。 然而 , 还需要进行更多的工作 , 设计出准确、稳健和计算效率高的细胞检测方法 , 并将其纳入广泛使用的软件中 。 这一点尤为重要 , 因为细胞分割的失败不是随机分布的 , 而是倾向于随着特定形态的增加而增加 。
边界和截止
图像分析的一个好处是 , 它使我们能够定量地解决图像更详细的问题 。 一个不便之处是 , 我们摆脱了人类视觉估计的不精确性 , 但是缺少了专家的直觉 , 而被迫对本应受评估的东西作出更精确的定义 。 这意味着在可能不存在边界的地方强加了严格的边界 。 例如 , 肿瘤区域的面积可能是精确确定的 , 但只有在人们接受肿瘤边界可以被精确确定的情况下 。 病理学家在标注肿瘤区域时画出了不同的轮廓 , 每一个都可能有特定的目的 , 每一种都有不同的区域 。 接受真理确定性缺乏的事实 , 人们可能会为数字病理学的价值有所争论 , 因为它减少了人的主体性 , 提高了再现性 。 然而 , 现实要复杂得多 。 有限泛化的问题意味着该算法可能为使用特定扫描仪扫描的图像产生一个边界 , 但如果相同的切片在不同的扫描仪上扫描 , 则会产生完全不同的边界 。 这种情况发生的程度需要逐个研究 , 但应该避免数字方法可以减少变异的假设 。
类似地 , 当分析免疫组化图像时 , 通过对细胞内像素值的汇总测量 , 应用固定的截止阈值 , 可以将细胞分为“阳性”或“阴性”(或1+、2+、3+) 。 鉴于所测量的染色强度实际上是一个连续变量 , 如果测量的细胞中有很大一部分接近阈值 , 那么阈值的精确选择可能会对输出指标(如阳性百分比、H评分或Allred评分)产生相当大的影响 。 乍一看 , 数字评分似乎仍比依赖病理学家的视觉印象更可取 , 因为数字截止可以被严格定义且完全可复制 。 然而 , 如果阈值保持不变 , 但图像会有不同的颜色特征——可能是由于染色变化、组织厚度或扫描仪的选择——分析仍然会产生不同的结果 。 因此 , 锁定算法参数本身不足以进行重复性分析 , 除非还可以锁定所有其他会影响像素值的分析前变量(图2) 。
人们可能希望通过避免硬阈值来缓解这种情况 , 而使用连续的染色强度测量 。 虽然图像分析软件可以从这种染色中得出数字 , 但这些数字仍然受制于成像变化 , 并且很容易被过度解释 , 例如 , 如果忽略二氨基联苯胺(DAB)底物的生物物理性质 。 另一个避免这个问题的方法是使用机器学习来确定免疫组化阳性 。 这也需要十分谨慎 , 因为它减少了可处理性 , 结果不一定得到改善 。 对于像Ki67这样的核标记物 , 我们需要注意混淆特征(例如核大小)不能过度影响模型预测 。 尽管如此 , 对于表现出复杂染色模式的标记物(如PD-L1) , 机器学习方法可能是合理的 , 因为简单的染色强度汇总指标会丢失太多信息 。