摘 要:应用快速精确的计算机技术替代人工辨识是实现早期癌症大范围普查诊断的有效手段。本文总结了液基细胞学计算机辅助诊断系统中应用的各种图像处理技术,对辅助诊断流程中图像分割方面所运用的技术进行了综述,根据癌细胞与正常细胞形态上的差异,给出了癌细胞识别中需要提取的各种特征参数,最后介绍了目前所应用于癌细胞自动识别方面的诸多分类识别技术,并讨论了液基细胞学制片计算机辅助诊断技术的未来发展。
关键词:计算机辅助诊断;图像分割;特征提取;癌细胞识别
1 引言
目前,癌症已成为严重危害人类健康,破坏家庭社会和谐的主要因素之一。根据世界卫生组织统计,2004 年全世界约有740 万人死于癌症,占死亡总数的13%以上。因癌症而死亡的人数呈逐年增长的趋势,预计到2030 年,癌症死亡人数将达到1200 万。就我国而言,每年约有100 万人发生肿瘤,80%死亡。由此可见,癌症的发病严重影响了人类的身体健康。在统计癌症发病率的同时,世界卫生组织也指出,若能够实现癌症的早期检测和治疗,大约可以降低1/3 的癌症死亡率,癌症的早期发现及诊断非常重要。
病理学诊断是癌症早期诊断技术中比较准确的方法。传统的病理学诊断是通过对病变部位进行取样得到细胞涂片或组织切片,并由经验丰富的医师对显微镜下的涂片或切片图像进行病理分析,从而得出最终诊断报告。目前在病理学诊断中广泛应用的液基薄层细胞学技术是制片技术的重大革新,即通过技术处理去掉涂片上的杂志,直接制成可清晰观察的薄层涂片,使阅片者更容易观察,其诊断准确性比传统法高。但是,液基细胞学技术的问世,只是制片技术的重大革新,而不能改变传统的人工阅读方式。由于显微镜下液基细胞制片的图像视野相当大,医师在进行诊断的时候需要长期观察显微镜,工作强度相当大,极易疲劳。而人工诊断结果的准确性和可靠性受到医师的主观因素、分析条件等多方面的影响,因此病人得到的诊断报告中往往存在着假阳性或假阴性的诊断错误。这些诊断错误可能会影响患者情绪,延误患者最佳的治疗时机,甚至威胁到患者的生命。
近年来,随着数字图像处理、模式识别以及计算机可视化技术在医学领域的飞速发展,研究者已经应用了多种计算机技术对显微镜下的细胞图像进行自动分析和处理。其核心思想是将专业医师的临床诊断经验融入到计算机辅助诊断中,实现液基细胞涂片显微图像的癌细胞自动识别,利用计算机系统的精确计算以及快速处理实现癌症早期诊断的大范围普查,并减少医师的工作量。对于显微图像的癌细胞自动识别研究,目前已经形成了比较成熟的技术流程,甚至部分公司已经研发出了比较可靠的癌症识别设备。本文主要介绍了液基细胞制片辅助检测技术中所采用的各种图像处理技术以及整个处理流程,以帮助相关研究者能更好地了解这项研究。2 液基细胞学计算机辅助诊断技术原理
计算机辅助诊断(computer-aided diagnosis, CAD)最早可追溯至1966 年由美国的Ledley提出,但其随后的发展一直陷入低谷。近年来,随着计算机技术的飞速发展,CAD 在发达国家的诸多医学领域取得了较快发展。针对病变细胞显微图像的一系列的计算机辅助诊断系统也相继推出。美国早在1989 年就针对宫颈癌细胞图像开发了PapNet 系统,这是一种交互式的神经网络辅助诊断系统(INNN testing system)。该系统利用人工神经网络识别每张细胞图片,并选出128 个最有可能的异常细胞图,对其中的异常细胞进行定位且在显微镜下进行核实诊断。而美国Hologic 公司针对目前新型的液基细胞学技术所制成的涂片(Liquid-Based Preparations, LBP),也开发出了用于癌细胞识别的辅助阅片系统,即新柏式玻片扫描影像分析系统(ThinPrep Imaging System, TIS)。该系统能从每张玻片的约120 个视野中选取22 个视野以便进一步诊断,并对异常细胞进行标记,帮助病理学家进行诊断。此外,国内的南京大学计算机新技术国家重点实验室与南京八一医院全军肿瘤研究中心联合研究多年,采用图像分析处理技术以及人工神经网络技术,研制出了针对肺癌系统涂片的计算机自动诊断系统(LCDS)。
一般来说,计算机辅助诊断流程大致可分为三个阶段,即特征提取、特征量化和数据处理。特征提取是将医学影像结果结合其病理特征资料提出出来并分类,特征量化即将提取出的特征进行分析量化,而数据处理就是在前两步的基础上应用各种数学模型或统计算法,形成有效CAD 系统。针对癌细胞显微图像的计算机辅助诊断系统主要由图像采集、预处理、图像分割、特征提取以及分类识别组成。其中涉及到了许多图像处理技术,目前大部分研究主要集中在细胞分割、特征提取和分类识别方面,下面主要介绍这几个方面的相关技术。
3 液基细胞学计算机辅助诊断技术
3.1 细胞图像预处理根据不同图像的特点进行适宜的预处理,可以不同程度地提高图像处理效率,改善处理效果。对于细胞制片显微图像,预处理操作主要包括图像平滑、ROI(Region of Interesting)区域的提取以及细胞核的位置检测。
在处理原始细胞图像时,首先要进行平滑处理以去除图像中的噪声,其中最常用的高斯滤波、中值滤波以及均值滤波。对于细胞图像,在实际处理过程中,可能会遇到染色不均匀的问题。Marroquin 针对该情况采用了基于形态学运算的ASF 滤波和Top-Hat 进行预处理,得到了不错的效果。而Perona 和Malik也提出了一种非线性扩散平滑(NonlinearDiffusion Filter)的方法进行图像预处理,该处理既有效地消除了噪声,还增强了图像的边缘。
图像平滑取得了一定效果之后,便要进行ROI 区域的提取,其目的是除去图像的无关区域,方便后续的提取处理。这部分处理目前多采用的是用阈值法来分割背景区域与有效区域。此外,Sobrevilla应用了一种模糊形态结构元素法(Fuzzy Morphological StructuralElement)用于细胞区域的提取,而Bamford则提出了一种基于测地学的水浸法来进行细胞区域的提取。
最后,预处理中最重要的步骤便是检测图像中细胞轮廓以及细胞核的位置,以方便后续的特征提取处理。目前主要的图像处理手段主要为Hough 变换法和区域检测法。Hough 变换法主要是利用Hough 变换对图像边界进行椭圆或圆形轮廓的检测,并确定其中心位置。而由于细胞及细胞核形状接近于椭圆,因此可将该中心位置作为细胞的定位。这一方法在检测椭圆时运算量很大,实际应用中一般要针对实际情况对其进行改进。而另一种区域检测法则是首先将细胞核所在区域分离出来,然后再检测各分离区域的中心点即作为细胞核的位置。在实际应用中,由于不同细胞间的粘连往往会给检测带来一定的难度。为了解决这一问题,Marroquin通过极限腐蚀等形态学的处理方法实现了粘连区域的分离。
3.2 图像分割如何准确有效地完成细胞图像的分割是整个辅助诊断系统的关键,这部分处理结果直接影响后续的特征提取以及分类识别的准确性及可靠性。而在细胞制片的实际操作过程中,如图3 所示,由于各种人为因素,获得的涂片细胞图像往往存在细胞重叠粘连、染色颜色不一致以及背景含有杂质的问题,这为细胞图像的准确有效分割增添了更多的难点。针对这些难点的细胞图像分割算法的研究一直是国内外研究热点。目前,根据图像分割的方式,这些算法分为基于边界的方法和基于区域的方法。3.2.1 边界分割算法边界检测是最常用的图像分割方法之一,其较为经典的图像处理方法便是构造边缘检测算子,如Canny、Sobel、Roberts、Prewitt 等。对于癌细胞图像,在进行边界检测后,还需对检出边界进行相应的搜索和连接才能获得完整的细胞轮廓。Xiao就采用了一种边界跟踪方法来分离细胞及细胞核。他们首先介由人工交互来进行细胞核位置的确定,之后计算梯度且对其进行二值化,最后通过一种搜索算法来跟踪记录细胞核的边界,从而将开曲线以及长度超出要求的曲线消除掉。当然这种方法的准确性与细胞图像的边界提取效果密切相关。而Einstein则是在人工交互的基础上,利用人工得出的几个特征点对细胞核进行封闭曲线的估计,从而对细胞核图像进行精确处理。此外,还有学者通过对梯度算子进行改进从而提出适合细胞图像分割的算法。Leung提出模糊运算的边界检测法来对细胞核进行检测,而Nedzved采用了形态学梯度的方法来检测细胞核。
在实际利用边界检测的方法进行图像分割的时候,由于图像背景中存在杂质或噪声的缘故,这会极大地干扰边界检测的效果,目前传统的边界检测方法并不能取得很好的效果。各种研究表明,解决这一问题最有效的方法便是提出各种针对细胞核轮廓的数学模型,之后对模型进行优化最终得到最佳细胞核轮廓。在对细胞显微图像进行检测时,由于细胞及细胞核的形状一般接近于椭圆。针对这一特征,许多研究便采用椭圆模型来进行细胞图像分割,用椭圆参数来描述边界形状。Wu 提出了一种针对图像中单个细胞的椭圆检测方法。由于制片中细胞核与外部的染色深度不同,他利用这一对比性质,构建了一个内部和外部具有相反度量值的椭圆图像模型,之后通过优化该模型使之接近于原始图像从而确定最佳的椭圆模型参数,进而实现图像边界的确定。当然这种方法也被推广至多个细胞核的分割。在椭圆模型方面,Jiang 提出了一种基于改进的Tabu 搜索算法来检测图像中的椭圆边界。他首先对细胞图像进行Canny 边缘检测,然后在检测出的边界中通过搜索的方法来获取合适长度的连通边界作为细胞核的边界,最后对这些边界再进行椭圆检测,从而最终确定细胞核区域。此外,Mouroutis 应用了一种概率模型来提取轮廓。他首先通过Hough 变换来定位细胞位置,然后以该检出位置点为原点,向周围沿径向搜索边界点。通过这些搜索点的灰度值、与原点的距离以及与该方向上梯度最大点的位置关系建立起一种该方向上边界点的概率分布,之后通过优化条件使得该模型概率最大便可得到最优边界。Garrido 提出了一种变形模板来对提取细胞核边界。他同样先利用Hough 变换对细胞核进行定位,之后便是利用定位点附近边界信息结合椭圆模型对细胞核轮廓进行最小二乘法估计,最后建立一种椭圆变形模型精确跟踪细胞核边界,达到图像分割的效果。
上述基于椭圆模型的方法大多采用优化模型的方法来估计细胞边界,但实际上很难精确定位图像边界。Kass 等于1987 年提出一种主动轮廓模型(Active Contour Model),又称为Snake 模型。Snake 模型为图像处理领域提供一个全局的图像分割方法,也提出了一种全新的分割思路,由于它灵活的形状描述方法,在医学图像处理领域得到了广泛的应用。Snake 模型的基本思想是在图像中搜索一条参数化的轮廓曲线,并使该曲线处的内能和势能的加权总值达到最小。其中内能由曲线自身的张力和刚性力决定,而势能由图像的特征决定。由于原始的Snake 模型对轮廓位置要求较高,且对凹陷、尖角等复杂边界难以进行有效跟踪,因此在对细胞图像进行分割的时候,一般需要对原始的Snake 模型进行改进。胡炯炯等提出了一种基于形态学的B-Snake 模型。他们通过一种距离图对B 样条活动轮廓模型进行改进,并初始化轮廓曲线。Lee先利用改进的Hough 变换确定细胞核椭圆,再结合该检出椭圆对Snake 模型进行优化,最终实现轮廓的精确分割。张震通过改进Snake 模型的本身组成,在修改Snake 曲线的外部能量、加强外部作用力、扩展外部能量作用范围和增强抗噪声能力的基础之上,根据实际情况,提出并引入了新的动态外部力,最终采用Williams的贪婪算法作为Snake 模型的优化算法,也得到出了比较精确的细胞轮廓。3.2.2 区域分割算法基于区域分割的细胞图像处理方法主要有阈值法和区域生长法。近年来,随着计算机技术的发展,一些高等图像处理技术(如向量机、自动聚类等)也逐步应用于细胞图像区域分割研究,使得分割效果更加准确有效。
由于细胞制片中细胞核与核外部组织的染色深度存在差异,基于这一特征,阈值法通过选取适当的图像灰度阈值来分离细胞核及核外部区域。目前细胞制片的显微图像大多为24位真彩图像,因此阈值分割的方法主要集中于研究彩色细胞图像的分割。比较常见的阈值分割方法主要是在颜色空间中对细胞图像像素进行聚类。Sammouda采用了Hopfield 神经网络对肺癌细胞图像进行了自动聚类分割。国内的王洪元还将该方法用于腹水脱落细胞图像的分割研究,并取得了不错的效果。此外,为了有效利用细胞图像的颜色信息,Martins应用K-L 变换将彩色图像中的R、G、B 三基色分量映射到其它三维空间,然后再针对新空间提取三个纹理特征,并利用神经网络对像素进行分类处理。陆建峰在对肺癌染色涂片的彩色细胞显微图像进行研究后发现,若将RGB 颜色空间转换为HSI 颜色空间后,通过在图像H 分量上进行阈值分割能较好地进行细胞核和细胞浆的分离,因此他先通过H 分量将细胞与背景分离,再通过I 分量分离细胞核与细胞浆。针对细胞制片所出现的染色不均匀的现象,目前多采用自适应阈值分割的方法。如Tanaka在对图像进行阈值分割的时候,首先将整个图像划分为各个子块,求出每个子块的阈值,然后用B 样条函数拟合整个图像的阈值曲面,并根据该拟合曲面对图像进行分割。
基于区域的分割方法主要是根据细胞图像中不同区域像素的颜色和几何特征将细胞核及细胞浆分离开来,其中最主要的一个应用便是数学形态学。形态学是以几何学为基础的图像分析方法,主要包括图像膨胀、腐蚀、开、闭运算等等。Thiran 和Macq 就提出了一种用于细胞图像分割的形态学处理方法。他们首先利用开运算将图像中的杂质去除,再应用一种重建算法来消除开运算所导致的目标图像失真,最终结合阈值法分割提取出细胞核区域。而针对图像中存在的细胞粘连问题,他们则采用极限腐蚀的方法得到各个粘连区域的中心,然后再搜索中心点附近的边界,最后取距离中心点最近的边界作为该区域的边界从而实现粘连区域的分割。
在众多的形态学方法中,目前应用最为广泛的便是流域法,又称为分水岭法,其本质内容是将待处理的图像作为一个凹凸不平的流域,然后通过构建流域分界线来实现图像中各个区域的分割,首先由Lantuejoul 和Beucher 引入到图像处理,并进一步应用在灰度图像上。细胞图像在进行流域分割时,一般要先进行预处理。国防科技大学的胡亚斌等人在对胃腺癌细胞图像进行流域分割时,先利用Canny 算子获取图像的梯度信息,然后再进行区域增长,从而得到了精确的细胞区域,最后利用一种改进的分水岭算法实现了粘连细胞的分割。王金涛等先是对图像作阈值处理,然后进行距离变换,由于每个细胞核区域中心存在距离局部最小值,进而应用分水岭算法,分割出粘连或重叠细胞。
近年来,随着图像处理研究的进展,许多新型模式识别的方法被引入到区域分割方法之中。例如,Martins对图像中每个像素的邻域内提取三个纹理特征,然后再利用神经网络的识别技术对像素进行分类,从而分割出有效区域。Spyrisdonos在提取了细胞图像自相关函数的纹理特征后,分别采取了最小距离法、Bayes 法以及多层感知法(MLP)对细胞核进行分割提取,并比较分析了最终的分割结果。3.3 特征提取对细胞图像进行分割处理后,提取相关特征信息是为细胞的分类识别提供判别条件,因此所选取的特征应该能够反映出正常细胞与癌变细胞之间的差异。从临床医学的角度来看,一般正常细胞形状规整,呈椭圆状,轮廓光滑,细胞核染色均匀,纹理呈细颗粒分布;而癌变细胞的形状不规则,细胞核颜色较深,核浆比较大。在研制基于细胞制片的计算机辅助诊断算法时,也需要从细胞识别的视觉特征出发,因此一般的诊断系统通常从细胞图像的颜色、形状和纹理中获取有效判别特征,从而实现细胞病变的度量。下面分别就这三个方面介绍这些判别特征参数。
3.3.1 颜色特征由于正常细胞与癌变细胞在细胞核染色深度上存在差异,因此对细胞核的颜色分布进行统计可以在一定程度上反映细胞病变特征。颜色特征提取涉及的算法比较简单,需要提取的颜色特征主要包括以下两部分:一是细胞核区域颜色在R、G、B 三个分量上的均值RN、GN、BN;二是细胞核区域上颜色方差VN,用以描述细胞核区域颜色的变化程度。其中,v 为细胞核区域上一点,(Rv、Gv、Bv)为v 点所对应的R、G、B 颜色值,CN代表细胞核区域。
3.3.2 形状特征细胞及细胞核的形状特征是依靠细胞图像进行细胞癌变诊断的关键因素。细胞的形状特征可分为几何特征和区域特征。几何特征包括细胞的高度、宽度、周长、面积、似圆度、矩形度、伸长度、中心矩和傅立叶描述子等特征。区域特征包括区域内细胞总数、总面积以及细胞面积和似圆度均方差。表1 给出了一些重要形状特征的公式描述。
一般在实际应用中,要根据分析对象的不同而选择相应的特征进行提取。Street 针对细胞核采用了分形维数来描述其边界的粗糙度。薛东君等人针对早期食管癌细胞图像,提取了细胞面积、细胞核面积、细胞浆面积、核浆比、细胞核透过率、细胞浆透过率、细胞对比度、细胞周长、细胞核周长以及细胞紧凑度作为判别特征,并选取了其中5 个独立特征用作分类识别研究。
3.3.3 纹理特征对于纹理特征的提取,目前最常用的方法便是依靠共生矩阵(Grey Level Co-OcurrenceMatrices,GLCM)对原图像进行描述。共生矩阵法是在统计图像中不同方向及尺度上像素的灰度概率分布的基础上,通过计算能量、熵、局部同质性、对比度、相关性等二阶统计量来定量描述图像纹理特性的方法。分别介绍了这些纹理统计量。
除了依靠灰度共生矩阵对纹理进行描述外,癌细胞自动识别和诊断技术中也常用到分形几何分析法。该方法是通过计算识别对象在不同尺度的自相似性从而描述其不规则度和复杂度,一般由分形维数来描述纹理的粗糙度。假设N 为尺度p 下的自相似块的数量,分形维数可以描述为log(N)/log(p),并且在实际应用中,分形维数可以通过各种方法进行估计,如盒计数法、功率谱法、结构函数法以及分块迭代函数法。王浩军、郑崇勋等在研究骨髓涂片中粒细胞核表面纹理时,提出了一种改进的基于分块迭代函数系统的分形维数估计法。该方法首先通过压缩仿射变换针对细胞核灰度图像构建出分块迭代函数,然后利用这些分块迭代函数计算出反映细胞核分形特征的匹配块因子、尺度系数等参数从而进一步推导出分形维数。此外,Walker 还应用了MRF(Markov Random Field)模型来提取细胞核的染色分布特征。Weyn 利用小波变换的方法对图像的能量分布进行统计,进而作为细胞核纹理特征。总之,对细胞显微图像进行纹理特征提取时,应着重提取反映细胞发生癌变的重要表征,以确保后面分类识别的判别精度。3.4 分类识别癌细胞计算机辅助诊断的根本目的是判别待检测细胞是否发生癌变。根据提取出的细胞特征参数,研究大多利用分类识别的技术将其分为不同的病变类型。最常见的分类是进行癌与非癌细胞的鉴定或对检测出的癌细胞进行分类。目前,许多分类识别的方法已经用于显微细胞图片的自动识别中,包括人工神经网络法、Bayes 分类器、k-近邻法、线性判别法、决策树、模糊分类系统以及支持向量机。对这些分类识别方法进行了简要介绍。
在众多分类识别方法中,人工神经网络近年来发展非常迅速,在生物医学领域的应用非常广泛,其最基本的单位是人工神经元。神经元的输入源自其他神经元,其中的非线性函数f 是神经元输出激励函数,可以直接作为阈值函数。在进行细胞的分类识别研究中,由于通常要求f 可微,因此输出函数通常选用Sigmoid 函数。对于细胞图像的分类识别研究,常用到的是三层BP 神经网络结构。该结构模型主要由三层神经元组成:输入层、隐层以及输出层。模型算法主要分为正向输出和反向调整两个阶段。王洪元在设计细胞分类器时,就采用了无参数的sigmoid 函数作为神经元函数,并应用柔性神经网络反传修正拓扑模型对可疑细胞进行分类识别,结果表明该系统对腹水脱落癌细胞的分类识别能达到90%以上的诊断准确度。南京大学的周志华在针对肺癌细胞设计自动识别系统时,基于人工神经网络技术提出了一种NED 分类方法(Neural Ensemble-basedDetection),该网络模型主要包括两级神经网络结构。第一级人工神经网络主要用于判定细胞是否异常,第二级网络则将第一级网络的判定结果进行细化,分为5 种不同的类型,从而帮助医师进行诊断。
除了人工神经网络的方法外,其他分类识别方法也得到了广泛的应用,甚至部分研究运用了多种分类识别方法。并对各方法最终识别结果进行了比较分析。Espineira 在进行乳腺癌细胞的识别时,分别应用了决策树和线性判别的方法,且最终决策树的准确率为91.5%,线性判别法为89.4%.胡敏在针对细胞核特征进行分类识别研究时,分别采取了Bayes 判别法和k近邻法,结果表明两种方法分类效果基本相当,识别准确度最高可达86%以上。此外,同济大学的谢青在研究中采用7 个典型的细胞特征描述,应用ID3 算法生成决策树的方法进行了癌细胞识别研究,也取得了不错的效果。
4 液基细胞学计算机辅助诊断技术的展望
在实际采集细胞图像时,由于人为因素(如细胞染色不均匀、背景存在杂质等)或其他缘由,采集的细胞图像总是呈多种变化。而这些原因在某种程度上都给计算机辅助诊断造成了一定的影响,且引入了众多难题。针对目前液基细胞学计算机诊断技术遇到的种种问题,计算机辅助诊断还需要在一些方面有所发展。
一方面,细胞特征提取方面尚待完善。目前大多数细胞显微图像辅助诊断系统在进行细胞特征识别时,主要是对细胞核进行的分析,缺少更多的细节信息。整个细胞不仅包括细胞核还包括细胞浆,而在提取特征信息时,由于细胞的细胞浆总是会粘连、重叠在一起,很难提取到其精确细节信息。因此,大多数研究只是完整提取细胞核的形态、纹理及其它细节信息,细胞浆主要是进行图像分割后粗略提取其形态区域特征以计算核浆比。而在临床上,细胞核与细胞浆的相互位置分布也细胞病变的一个重要判定因素。针对这种情况,计算机辅助诊断系统可以在诊断图片的选择上进行细化处理,如在进行病理识别时,先根据图片提取特征对图像作出初步评价,确认能够进行准确识别,这样便可以避免一定的假阳性或假阴性误诊。此外,在纹理特征提取方面,目前研究大多只是依靠灰度共生矩阵的二阶统计量对其染色颗粒的粗糙度进行判定。在实际病理检查中,一些其它细胞核特征如核仁明显、多核以及核膜增厚也是重要的判定依据。因此,若要顾全此类情况,辅助诊断还应依据具体情况,细化特征提取操作,并提出针对性更强的定量分析。
另外,随着计算机辅助检测的普遍推广,亟需建立细胞病理自动识别的标准细胞图像库。目前学术界还没有提出一个公认的标准细胞图像库,各个研究组织都是在不同的环境和条件下,针对不同的应用目的进行图片采集和自动识别研究的。由于各个研究组织提出的辅助诊断系统针对的细胞种类不同,实验环境、取样方式、染色方法都存在差异,且最终的系统性能评估方法也不相同,因此其发表的数据只能在一定程度上反映他们各自开发系统诊断的可靠性,无法完全将各个系统进行相对比较,这给计算机辅助诊断系统的评估增添了不少困难。建立一个国际化的标准图像数据库是计算机辅助系统走向成熟的一个必经过程。