MIMIC数据库,是一个免费大型的医疗数据库,里面包含的内容十分庞大,可以称之为大数据。对它的分析和挖掘是很多医疗从业者重点关注的领域。MIMIC数据库有好几个版本,主要有MIMIC-II, MIMIC-III, MIMIC-IV。他们的主要区别在于包含的数据所在的年份不同,MIMIC-II包含的是比较早的数据,MIMIC-IV包含的是比较新的数据,随着医学的发展,医疗设备的完善,也有一些新的数据增加进来。但是整体的框架和思路都是类似的。因此对于研究者来说,搞清楚一种就会有一通百通的效果。
对于MIMIC数据库的研究,就不得不谈到大数据分析,不可避免地也要谈到机器学习技术,对于非IT专业的人士,需要认识到机器学习的本质。机器学习,其实还是一种尝试试错的方法。传统的计算机比较擅长解决的是根据输入,和如何处理这些输入的"算法", 得到正确的输出;而机器学习,通常是有一大堆的输入输出数据,但是不知道他们之间的关系,对于输入怎样影响输出的”算法“的求解正是机器学习要解决的问题。而机器解决这个问题的办法的本质其实就是试,不断地试,再辅助用一些数学的方法,让这个试的过程尽可能的快速和朝着正确的方向进行。
除了机器学习,最基本的数据分析方法,例如分类统计,线性回归等等都是可以得出一些结论的。因此对于普通的研究者,无需一上来就动用机器学习的框架,通过自己的搭建获取数据,进行有的放矢地查询分析,也可以达到自己的目的。而这一切的基础,都是如何获取和部署数据,让后续的分类统计能够派上用场。本文讲解了MIMIC数据库获取的具体方法,快来开启新的旅程吧!
首先需要在PhysioNet上注册一个账号,账号的邮箱建议使用教育机构或者医疗机构的邮箱。为了要申请MIMIC的数据库,还需要进行申请和培训。申请需要填写您的申请目的,培训需要您在线学习,并回答问题。全部完毕之后,就可以登录账号,在PhysioNet的主页上搜索MIMIC,将会有很多相关的数据显示出来。例如以下的链接就是MIMIC III的主数据库的地址。
https://physionet.org/content/mimiciii/1.4/
数据库的内容位于页面最底端,如果还没有进行申请和培训,会显示如下的信息。
当所有的需要的申请和培训通过之后(这将会耗费不短的时间),将可以看到数据文件的列表,和下载方法说明
这里比较推荐使用以下两个方式
(1)Download the ZIP file
(2)Download the files using your terminal
以上两种方式,将可以下载到自己的硬盘中,其他方式,分别提供了Google和亚马逊网盘的下载地址。也可以使用BigQuery进行数据查询,但由于Google的可访问性问题,还是建议下载到本地。
下载完毕以后,将得到如下的文件列表
这些以.gz为结尾的文件都是压缩文件,使用常用的压缩软件都可以进行解压,解压以后将得到一个.csv文件。这个文件是一种特别的文本文件,可以使用Excel打开,打开以后就是表格的形式。因此MIMIC的数据形式,就是一系列的表格。各位的医学研究思路,主要就可以归纳为利用这些表格进行联合查询,从而得到有价值的统计分析结果。当然,如果利用机器学习技术,对这些表格中的数据进行挖掘也能得到其他的结果。这里需要医学专业的从业者进行归因,分析从而创建出有价值的模型。
这些表格数据量都非常庞大,尤其一些日常数据例如chartevents,解压后的文件大小将达到30多G。所以需要有足够的空间来做这个事。因此凭借Excel直接查看是完全无法得到结果的。这里需要将数据导入到专业的数据库管理系统中。至于使用哪种数据库,并不是特别重要,因为目前市面上的主流的数据库例如Postgres, MySQL等等都可以支持这些表格的导入,以及查询,视图操作。
导入数据分为两个部分:
(1)导入csv文件到数据库(2)创建索引
创建索引的目的是为了使后面的查询快速,因为数据表的数据量非常庞大,如果没有索引的帮助,多数查询将变得极其缓慢,甚至可能都无法完成。
https://github.com/MIT-LCP/mimic-code/tree/main/mimic-iii/buildmimic
各种数据库如何进行数据导入都记录在以上的官方链接中。
数据导入成功后,可以安装navicat等数据浏览工具进行查看,至此我们就可以方便地利用表格的形式一页一页地进行查看了。了解到数据库里都包含哪些数据,是我们研究的第一步,因此极其重要。
这一步并不是必须的,所谓视图,就是一些预定义好的查询,这些查询结果是以可读性比较好的方式来展现出来的。由于MIMIC数据库各个表格之间的关联极其紧密,一个有意义的结果通常需要跨越好几个表格进行联合查询才能得到结果。
https://github.com/MIT-LCP/mimic-code/tree/main/mimic-iii/concepts
以上链接是官方提供的一些视图概念,将里面的查询语句在查询工具中输入并执行即可得到查询结果。
以上就是开MIMIC研究的入门第一步了,希望每个人都能成功。利用好这个数据,找到自己的思路。
留言与评论(共有 0 条评论) “” |