这两天又重新回顾了一下医学图像数据的读取和预处理方法,在这里总结一下。
基于深度学习做医学图像数据分析,例如病灶检测、肿瘤或者器官分割等任务,第一步就是要对数据有一个大概的认识。但是我刚刚入门医学图像分割的时候,很迷茫不知道自己该干啥,不知道需要准备哪些知识,慢慢到现在才建立了一个简陋的知识体系。个人认为,比如说医学图像分割这个方向,再具体一点比如腹部器官分割或者肝脏肿瘤分割,需要掌握两方面的知识:(1)医学图像预处理方法;(2)深度学习知识。 而第一点是进行第二点的必要条件,因为你需要了解输入到dl网络中的到底是长啥样的数据。
这篇文章主要介绍常见的医学图像读取方式和预处理方法。
1. 医学图像数据读取
1.1 itk-snap软件
首先介绍一下医学图像可视化软件itk-snap, 可以作为直观感受医学图像3d结构的工具,也可以用来做为分割和检测框标注工具,免费,很好用,安利一下:itk-snap官方下载地址:http://www.itksnap.org/pmwiki/pmwiki.php。此外,mango(http://ric.uthscsa.edu/mango/)是另一个非常轻量的可视化软件,也可以试试。我一般用itk-snap。
itk-snap界面
首先要明确一下和人体对应的方向,其中三个窗口对应三个切面,对应关系如下图所示,按照字母索引即可。例如,左上图对应r-a-l-p这个面,是从脚底往头部方向看的切面(即z方向),另外两张类似。
红色切面为矢状面,紫色切面为冠状面,绿色切面为横断面
也可以同时将分割结果导入,对比观察。
对于标注不太严谨的地方也可以精细化修改。当然公开集的话,绝大多数都挺好的。自己标注也是类似。(如果显示不太清晰,对比度太低,需要在软件中调节窗宽和窗位)
1.2 simpleitk
我们知道,最常见的医学图像有ct和mri,这都是三维数据,相比于二维数据要难一些。而且保存下来的数据也有很多格式,常见的有.dcm .nii(.gz) .mha .mhd(+raw)。这些类型的数据都可以用python的simpleitk来处理,此外pydicom可以对.dcm文件进行读取和修改。
读取操作的目的是从每一个病人数据中抽取tensor数据,用simpleitk读取上面的.nii数据为例:
import numpy as np
import os
import glob
import simpleitk as sitk
from scipy import ndimage
import matplotlib.pyplot as plt # 载入需要的库
# 指定数据root路径,其中data目录下是volume数据,label下是segmentation数据,都是.nii格式
data_path = r'f:lits_datasetdata'
label_path = r'f:lits_datasetlabel'
dataname_list = os.listdir(data_path)
dataname_list.sort()
ori_data = sitk.readimage(os.path.join(data_path,dataname_list[3])) # 读取其中一个volume数据
data1 = sitk.getarrayfromimage(ori_data) # 提取数据中心的array
print(dataname_list[3],data1.shape,data1[100,255,255]) #打印数据name、shape和某一个元素的值
plt.imshow(data1[100,:,:]) # 对第100张slice可视化
plt.show()
输出结果:
['volume-0.nii', 'volume-1.nii', 'volume-10.nii', 'volume-11.nii',...
volume-11.nii (466, 512, 512) 232.0
表明该数据shape为(466,512,512),注意对应的顺序是z,x,y。z其实是slice的索引。x和y是某一个slice的宽和高。
z索引为100的plot结果:
同一个slice在itk-snap可视化结果(注意这里(x,y,z=(256,256,101)),因为itk-snap默认从1开始索引):
可以发现,上下两张x轴一样但y轴方向上下翻转了,这是由于matplotlib显示方式不同,但是不会出现读取数据对不齐的问题。
2.医学图像预处理
这部分内容比较杂乱。因为不同的任务、不同的数据集,通常数据预处理的方法有很大不同。但基本思路是要让处理后的数据更有利于网络训练。那么二维图像预处理的一些方法都是可以借鉴的,如对比度增强、去噪、裁剪等等。此外还有医学图像本身的一些先验知识也可以利用,比如ct图像中不同仿射剂量(单位:hu) 会对应人体不同的组织器官。
不同放射剂量对应的组织器官
基于上表,可以对原始数据进行归一化处理:
min_bound = -1000.0
max_bound = 400.0
def norm_img(image): # 归一化像素值到(0,1)之间,且将溢出值取边界值
image = (image - min_bound) / (max_bound - min_bound)
image[image > 1] = 1.
image[image < 0] = 0.
return image
也可以将其标准化/0均值化,将数据中心转移到原点处:
image = image-meam
上述归一化处理适用于绝大多数数据集,其他一些都是可有可无的针对于具体数据的操作,这些操作包括上面的min_bound 和max_bound 都最好参考优秀论文的开源代码的处理方式。
预处理后的数据集建议保存在本地,这样可以减少训练时的部分资源消耗。此外,如随机裁剪、线性变换等数据增强处理步骤,还是需要在训练时进行。
超声功率放大器在无损检测中的应用
康佳特利用AMD Ryzen™ Embedded V2000处理器实现性能翻倍
疫情促使人工智能需求改变
模拟电子技术复习-测控
小米x1什么时候上市?小米x1最新消息:MIUI9系统+OPPOR11的配置,只售1999元?这让OPPOR11情何以堪?
常见的医学图像读取方式和预处理方法
2017年12月手机销量报告:Ov占据七成市场 苹果华为增幅最大
龙芯发布最新产品及布局已久的产业计划_沸腾了全中国!
汽车行业不一样的“四化”正热 上汽借助电动化走出去的计划不言自明
测量仪器的阻抗对测量的影响
第十三届中国北京国际文化创意产业博览会 动漫游戏产业发展国际论坛在京举行
苹果iPhone11系列新机基本上没啥秘密可言了
平价好用蓝牙耳机推荐、平价好用的蓝牙耳机牌子
pppoe账号密码是什么_pppoe错误怎么解决
小米9详细评测 各方面表现均衡卖2999物超所值
基于单个CSRR结构的超宽带天线
2019上半年LED照明行业收购案盘点
5G引领下机器人产业打开全新想象,未来云机器人将迎来发展春天
多功能视频光端机_多业务光端机的功能特性
浅谈射频芯片对5G通信的重要作用