学术分享 | 数字病理图像分析方法的开发( 二 )


传统的图像处理
传统的图像处理要明确地定义所涉及的处理操作 , 这通常从广泛的既定技术中选取 。 例如 , 处理H&E图像通常从颜色反卷积分离染色开始;这有效地重新组合了每个像素的红色、绿色和蓝色值 , 使用以染色颜色为特征的加权和 。 随后可以进行卷积:一种图像滤波操作 , 该操作用相邻像素的加权和替换每个像素;权值由卷积核定义 , 不同的核会导致输出图像在不同的尺度上突出不同种类的特征(如丝状结构、边缘、不同大小的斑点) 。
卷积通常应用于使用不同核的图像副本 , 然后通过添加或减去相应的像素重新组合 。 最终 , 生成一幅图像 , 其中可以通过应用阈值 , 把与感兴趣的结构相对应的像素值从所有其他像素中分离出来 , 从而生成表示可测量的不同对象的二值图像 。 可能需要一些额外的操作(例如非线性滤波、距离或分水岭变换)来充分分割聚类对象或重新定义边界 。 在“数据可用性声明”部分提供了这些技术概述的链接 。
数字病理学文献中有许多各级图像处理文献:描述单个操作(例如染色分离的新方法) , 通用任务的操作组合(例如核检测) , 以及为特定应用设计的完整算法(例如乳腺癌的Ki67评估) 。 在每种情况下 , 处理都是人工操作的、确定的 。 核心操作可以不断调整和重组 , 构建不同的算法 , 以满足不同的目的 。
机器学习
研发强大的图像处理算法需要大量的工作和对数据的良好理解 。 它还需要想象力:开发人员需要注意算法可能会在不可见的图像、人工制品和异常上失败 。 事实上 , 这永远不可能完全不出错:因为不是每个可能出错的地方都可能被考虑到 , 而且即使认识到了问题 , 也很难克服 。
如果计算机能通过实例和经验展现出类似人类的智慧 , 这就会容易得多 。 这种人工智能(在一定程度上)可以通过机器学习来训练一个能对新数据做出有效预测的模型 。 在这里 , 我们将专注于监督机器学习 , 该模型通过使用带有明确目标的标注数据进行训练 , 从而进行预测 。 这与无监督方法相反 , 无监督方法可用于在无标注数据中找到集群 。
开发数字病理的监督机器学习算法需要相关标注数据的输入 , 需要一个能够从输入进行预测的模型 , 以及一个计算预测和标注之间误差的损失函数 。 训练期间的目标是迭代地改进模型 , 直到预测和标注之间的损失最小化 。 这个概念非常通用 , 标注根据手头的任务采取不同的形式 。 例如 , 病理学家标注的区域可能用于为图像的每个图块导出标注数据 , 并用于训练新图像模型 , 我们将这些新图像转换为对象进行定量分析 。 或者 , 一张图像可能有一个单独的相关标签——可能是基于病理学家的评估 , 或其他可用的数据——模型也应该做出单一的预测 , 例如突变状态或患者结果 。
传统上来说 , 机器学习模型基于随机森林 , 其支持向量机和逻辑回归等技术 。 算法开发人员从图像中选择与预测相关的特征 , 并将其作为模型输入 。 这些特征通常是常见的图像处理操作的结果(例如 , 带有预定义核的卷积滤波器) , 尽管它们也可能是由之前在图像中检测到的物体确定的(例如 , 核的大小、形状和密度) 。 因此 , 虽然仍涉及图像处理 , 但开发人员没有明确定义所有操作;相反 , 它们通过选择训练数据、特征和模型间接地调整算法 。
深度学习是指在多个领域中特别强大的机器学习方法的子集 。 对于成像应用 , 深度学习模型通常是一种卷积神经网络(CNN) 。 顾名思义 , 卷积神经网络也依赖于卷积来生成特征——然而 , 核本身是在训练过程中学习的 。 这对所能取得的成就有着深远的影响 。 通过学习数百个这样的卷积滤波器 , 并将它们与其他非线性变换和调整大小相结合 , 深度学习有效地为定义输入特征打开思路 。 在实践中 , 这使得识别更复杂或微妙的模式成为可能——以需要更多的计算能力为代价 。