带有隐变量的因果关系发现研究及应用
国际学院
Research and application of causal discovery methods with latent factors
在医疗领域,因果推断是医疗决策支持系统领域中一个不可回避的重要研究问题。在实际临床实践中,由于经常只能获得数据中的一部分属性,且真实医疗数据往往存在着隐变量,而现有因果结构学习方法普遍基于因果充分性假设,隐变量的存在会导致因果关系推断产生错误。因此,针对海量复杂、异构医学数据,发现并控制隐变量,建立数据变量之间真正的因果关系,已成为医学人工智能领域的研究热点和亟待解决的重要问题之一。
目前,因果关系发现方法主要有基于约束的方法、基于得分的方法以及基于因果函数模型的方法,这里基于得分的方法不做重点讨论。基于约束的方法通过学习一组满足特定条件独立性的网络结构来推断因果关系,但面临高维数据和复杂网络结构时存在学习复杂度高和算法效果依赖变量处理顺序的问题。基于因果函数模型的方法则从因果作用机制和数据分布特性角度出发,通过结构方程模型描述原因变量和结果变量之间的因果机制,但无法处理具有潜在层次结构的情况(即隐变量的子变量可能仍可能是隐变量)。因此,在一些复杂的网络结构假设下,如医学中广泛存在的高维带枢纽节点网络,或多层调控网络等场景下,现有方法对隐变量之间因果结构关系刻画能力存在着不足。
因此,本项目拟在现有方法的基础上进行创新,进一步提高搜索效率,解决存在枢纽节点时的问题,同时,考虑数据生成机制、因果关系的估计和隐变量的处理,以适应医学领域的特殊需求和复杂数据的特点,在方法层面上针对电子病历大数据拟开发与实现面向复杂、异构数据的隐变量因果发现有效算法,并构建面向实际临床应用的原型系统。
本项目的开展,将为因果关系的发现带来新的视角,特别是在处理高维、复杂数据和隐变量方面,将填补现有研究的不足。通过开发有效的算法和原型系统,期待能为医学研究提供更准确的因果关系解读,为临床决策提供更强的科学依据,为医学领域的研究和实践提供重要支持。