医疗科学医疗问题中数据科学和管理研究差别开云网页
栏目:开云网页新闻 发布时间:2023-07-29
 (data science)的研究。我一直很犹豫写专业相关的文章,因为我还没有读phd,迟早有一天觉得自己现在的认识很浅且很不完整。但是还是试着去写。当然我不可能三言两语把一个领域丰富多样的研究梳理到位,只是提到一些研究的话题供感兴趣的各位了解。  如果对医疗和数据科学的定义理解成,“在健康相关的问题场景” 和“基于数据处理得到结论”,包含的研究方向有很多,传染病研究、ai 制药、生物统计等。

  (data science)的研究。我一直很犹豫写专业相关的文章,因为我还没有读phd,迟早有一天觉得自己现在的认识很浅且很不完整。但是还是试着去写。当然我不可能三言两语把一个领域丰富多样的研究梳理到位,只是提到一些研究的话题供感兴趣的各位了解。

  如果对医疗和数据科学的定义理解成,“在健康相关的问题场景” 和“基于数据处理得到结论”,包含的研究方向有很多,传染病研究、ai 制药、生物统计等。但是我更熟悉的是,将“医疗”的背景缩小到医院,主要研究方向有疾病预测和疾病诊断。

  疾病预测有两种,一种是预测医院某个科室会有多少病人到达;另一种是,基于病人的诊断信息,对病人是否有患病、患病程度(包括住院时长)进行判断或预测。当然,病人的诊断信息形式很丰富,可以是数字、文本信息、图像信息开云网页。对应就会有自然语言处理、图像识别等工具的使用。

  这样说,好像疾病预测也可以转换成一般的预测问题,使用传统的机器学习算法。但是,医疗数据处理有一些特殊的难点。

  1、使用传统的机器学习方法,如支持向量机、逻辑回归、简单贝叶斯和随机森林,进行疾病预测。其中,随机森林开云网页的预测表现突出。

  2、在第一类研究中,研究者往往不会结合问题本身的特点,进一步,针对问题的特点,创新地应用方法。 Chen at el 针对很多诊断结果是非结构化文本数据,使用多个基于卷积神经网络的算法来挖掘诊断信息(CNN-based multi-model)[1]。我不太懂CNN,我所知道的CNN主要用在图像识别医疗科学。由于很多自残患者(self-harming)、抑郁病患者和艾滋病患者是不会自己去医院的,所以不能够基于他们的诊断记录来预测这部分人是否患有相应疾病。 Xu at el 使用word2vec的原理,利用诊断之间的相关性来预测上述疾病 [2]。比如开云网页,癌症患者更可能患抑郁症。而word2vec是一种自然语言处理算法。

  3、在第二类研究中,方法已有的,但是有些研究创新地改造了模型,以此增加解决特定问题的能力。疾病预测问题中,特征 features 之间有较强的依赖性,比如一个病因会在多项指标中体现, Fan at el 尝试结合 group lasso和 fused lasso 来解决这个问题 [3]。

  当然,问题驱动的研究最终还是由问题有没有妥善解决作为评价标准,而非模型的复杂程度。也有发在msom上的论文,在预测方法上使用的就是线性模型和随机森林。

  总的来说,我了解到的数据开云网页科学方面,医疗数据处理研究的方式就是:对于一个没有被处理过的问题,提出合适的解决方法;或者是在曾经被解决过的问题上提出新的更好的解决方案。论文结构是:介绍问题背景,提出问题解决的难点,介绍数据,介绍解决方案(新的模型),介绍模型预测表现,和现有模型对比说明新模型的价值医疗科学。

  到了管理科学这边,主要是面对一种有限的资源,如何对资源的分配进行优化。因为资源分配决策可以是一次性的和多阶段的,对应建立的模型也分为静态优化模型和动态优化模型。静态优化模型解决的问题有医院或者医疗机构选址问题、救护车派遣问题等。我更熟悉动态优化模型一点,主要有排队论模型和马尔可夫决策过程模型。我看过解决的问题有不同医院收费机制对医疗服务提供时的队伍长度影响;紧急事件下是否要进行分诊,分诊会占用医生时间,但是也可以让病重的病人先接受治疗;ICU病房资源在危重病人和普通病人之间的分配等。动态优化模型还被用于精准医疗,比如研究在观察到一个症状后是否采取某个治疗手段。

  排队论模型论文结构我不太记得了。马尔可夫决策过程模型的论文结构是:介绍问题背景(包括系统状态和需要讨论的决定),定义状态、决定(动作)和决定收益,构建状态转移方程,比较不同策略下的总收益(或者求出最优决策之间的决策边界cutting point或者switching curve)。

  两边研究都有各自难处,医疗数据处理的难处是一些算法伦理问题、算法可解释性问题、算法要比医生判断更准确。医疗资源优化分配的难处是大量时间花在模型的推导和证明,并且模型的落地应用我觉得更难,因为会涉及医院管理。