分子数据透露疾病的关联
时间:2013-12-17 阅读:475
医学数据库(如Disease Ontology)能够帮助临床医生们,在病理学分析和临床症状的基础上,对疾病进行分类。现在,为了改进疾病的分类法,科学家们将疾病与分子数据结合起来,发现了14个新的疾病关联。
Ljubljana大学、伦敦帝国理工和GSK的研究人员,在Nature旗下的Scientific Reports杂志上发表了这项研究。
“我们希望在生物学机制的基础上,将疾病关联起来,”Blaz Zupan教授说。“我们相信这一新的疾病分类途径,更为准确也更贴合治疗,可以帮助人们更好的理解疾病的临床表现和生物学机制。”
这项研究中用于分类的分子数据集,不仅庞大而且非常多样化。为了处理这些数据,研究人员采用了同步矩阵分解,以便分析11个大型数据源中的四个不同对象:药物、基因、Disease Ontology条目、和Gene Ontology条目。
据Zupan介绍,研究团队面临的主要挑战是,找到能整合多个数据源的方法。为此,文章的*作者Marinka Zitnik开发了DFMF(Data Fusion by Matrix Factorization)算法,这种算法可以同时在多个资源中挖掘数据。他们利用这一算法,在三个星期内发现了14个新的疾病关联。
“这一算法的zui大优势在于,将多个矩阵融合在一起,例如在这项研究中,它整合了11个不同的数据矩阵,”Zupan说。“这些矩阵之间存在共享的对象,例如基因和疾病。我们的同步矩阵分解实现了大规模的数据融合。”
基因组研究者往往需要分析和整合大量的数据源,这一技术也能为此提供帮助“一般科学家们zui多分析两三个数据集,而这一技术可以同时处理十到二十个数据集,”Zupan说。“目前,高通量技术为人们提供了海量的数据,我们的技术可以帮助人们对这样的数据进行处理。”
目前,研究人员正准备为上述技术开发界面,以帮助其他研究者解决问题。