《AD分子标记物文本挖掘》-GenMed2014论文评述

《Linking hypothetical knowledge patterns to disease molecular signatures for biomarker discovery in Alzheimer’s disease》论文评述

文章《Linking hypothetical knowledge patterns to disease molecular signatures for biomarker discovery in Alzheimer’s disease》https://linkspringer.53yu.com/article/10.1186/s13073-014-0097-z 作者:Ashutosh Malhotra, Erfan Younesi, Shweta Bagewadi, Martin Hofmann-Apitius 引用方式:Malhotra, A., Younesi, E., Bagewadi, S., & Hofmann-Apitius, M. (2014). Linking hypothetical knowledge patterns to disease molecular signatures for biomarkerer discovery in Alzheimer’s disease. Genome medicine6(11), 1-11.

论文评述:连钰珑

(整理自姚昕智讨论材料。)

2022-06-13

一、论文主要研究内容和结果

该文章旨在利用已有的(2014年以前)自然语言处理方法,自动化的对文章中基因/蛋白,阿兹海默症病理阶段和假说触发词(例如may be)进行标注,并结合大量人工检查和已有的基因差异表达数据来识别阿兹海默(Alzheimer’s disease)各个阶段的潜在Biomarker,最后通过表达数据来验证所识别的Biomarker的正确性。最后,作者们借助Biological Expression Language (BEL)对找到的4个Biomarker在轻度AD疾病机理中的生物代谢链条进行刻画,帮助阐释这4个Biomarker在病程中发挥的机理。

二、论文中用到的方法:

1. 通过将‘human gene/protein dictionary’,‘HypothesisFinder’, 和‘Alzheimer’s disease ontology(ADO)’三个词典输入SCAIView,一个可以基于输入词典进行命名实体识别,信息追溯和信息抽取的自然语言处理工具,来对文献中的蛋白/基因,假说模板和疾病发病阶段进行挖掘,并基于规则的方法结合三部分信息抽取出假说,并通过人工检查进一步筛选假说。(这里的假说,指的是Hypothesis=Protein + Speculative pattern/猜测模板 + disease stage. 例如 “Tau and Abeta may be biomarker … in the early identification of AD in MCI subjects.” Tau和App为Protein,may be为Speculative pattern,MCI/轻微认知损伤,mild cognitive impairment为disease stage.)

2. 根据抽取出来的假说,人工整理提及潜在的Biomarker,并利用SCAIView追溯每个Biomarker的文本证据,通过将Biomarkerer terminology作为词典进行输入。所追溯的证据同样通过人工检查。

3. 利用2012年的一个机器学习模型,抽取假说中提及的所有蛋白的PPI关系,并构建PPI网络,其中包含321个节点和356条边。之后根据假设,仅有连边的接节点才更有可能进一步导入功能上下文并且提供可能的机理阐释,从而进一步筛选提及的蛋白用于后续分析。

4. 为了在这些蛋白中进一步识别潜在的biomarker,从MGI数据库下载对应的基因表达数据,并根据“A putative biomarkerer was considered ‘more relevant’ or ‘more promising’ when a knockout mouse phenotype provided supportive evidence that the gene or protein speculated to be a biomarkerer displayed a phenotype that would be in line with the putative role of that gene or protein in the pathophysiology process modeled.”来进一步筛选潜在的biomarker。为了更直观的阐释biomarker在病理中发挥的机理,将这些biomarker导入基于Biological Expression Language(BEL)框架的模型,并通过Cytoscape进行可视化。

5. 引入Microarry数据来验证文章找到的这些biomarker的正确性。

6. 利用BEL对4个新发现的轻微AD biomarker进行机理的可视化。

三、对论文工作的评价:

1. 该文章用的自然语言处理方法为2014年之前已有的基于规则的方法,彼时PubTator等工具还未兴起,而这些年BioNLP领域的发展让自动化生物调控知识的挖掘提供了更大便利。

2. 该文章在假说质量控制、文本证据筛选、假说筛选和BEL可视化方面都加入了大量的人工,确保了相当的准确率结果,但同时让工作自动化大批量挖掘及提供实时知识挖掘的成为可能。

3. 该工作区分AD不同发展阶段,和iASiS中区分AD亚型的想法类似,且方法可复现,可作为我们工作后期的参考。

4. 该工作基于大量挖掘结果进行少量可靠知识发现的做法可参考。

5. 该工作相比于Zhou 2020年的工作,有相似处,也各有千秋。

相同点:

  • 两个工作都有各自挖掘Biomarker的Pipeline。
  • 两个工作都利用了文本和组学数据。

区别:

  • 前者以挖掘基因为目标。
  • 后者以挖掘突变为目标。
  • 前者一前一后使用文本和表达数据,是用文本挖掘去筛选一轮数据后,再接上表达数据进行结果验证。
  • 后者同阶段使用文本和GWAS数据,采用的是数据融合的算法。

这些工作体现出疾病(AD)潜在Biomarker挖掘的几个趋势:自动化,大规模,通过文本资源进行更多的生物分析。

6. BEL语言框架和GENIE,AGAC的语言框架有很多类似的地方,其中一些设计可供参考。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: