《CIViCmine癌症标志物文本证据自动化挖掘》——GenMed2019论文评述

CIViCmine论文评述

文章:
《Text-mining clinically relevant cancer biomarkers for curation into the CIViC database》
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6891984/  
作者:
Jake LeverMartin R. JonesArpad M. DanosKilannin KrysiakMelika BonakdarJasleen K. GrewalLuka CulibrkObi L. GriffithMalachi Griffith, and Steven J. M. Jones 
引用方式:
Lever J, Jones MR, Danos AM, Krysiak K, Bonakdar M, Grewal JK, Culibrk L, Griffith OL, Griffith M, Jones SJM. Text-mining clinically relevant cancer biomarkers for curation into the CIViC database. Genome Med. 2019 Dec 3;11(1):78. 

论文评述:贺芷涵、唐子铭

(整理自姚昕智论文导读及讨论材料。)

2023-01-03

一、论文主要研究内容和结果

该工作的主要目的在于用文本挖掘的方法自动补充CIViC数据库。CIViC数据库是认可度较高的,由人工整理的癌症变异临床解释数据库,该数据库关注的突变类型主要有point mutations, CNV, epigenetic marks, gene fusions, aberrant expression level, 以及 other omics events。对每个突变提供四类临床关联(clinical relevance)的证据(证据类型):

  • Diagnostic evidence:诊断证据,可以帮助临床医生诊断或排除癌症的变异;
  • Predictive evidence:预测证据,有助于预测药物敏感性或反应的变异
  • Predisposing evidence:易感证据,增加发生特定癌症可能性的种系变异;
  • prognostic evidence:预后证据,预测生存结果的变异。

CIViCmine的主要贡献是提出了一种可以应用于生物学和医学许多领域的知识库构建方法,一种用于提取四种实体类型之间复杂关系的机器学习方法,以及提取尽可能多的公开可访问摘要和全文文章之间的关系。CIVimine提取了121,589条句子,包含87,412个biomarks(与8,035个基因,337个药物,和572种癌症类型相关),涉及25,818篇摘要和39,795篇全文。

二、论文中用到的文本挖掘方法

论文中详细叙述了方法步骤,关键步骤包括如下:

1.数据来源有PubMed,PMCOA子集,和PMCAMC。术语列表如下:

  • Cancer list:Disease Ontology的部分,用UMLS做同义名扩展补充;
  • Gene list: Entrez gene list ID,用UMLS做同义名扩展补充;
  • Drug list: WikiData.  
  • Mutation: 延续CancerMine推出的标准, Point mutations, CNV, epigenetic marks, expression changes. (https://github.com/jakelever/biowordlists)

2.通过精准字符串匹配的方法匹配句子中的癌症、基因、药物和变异(variants)。另外,该工作将基因融合视为一个遗传事件,与mutation平行,基因融合是通过识别用“forward slash /”,“hyphen -”,“colon:”分隔的基因来检测的。

3.该工作执行严格的句子选择策略,对于已经作为NER和Parsing的句子,挑选的句子必须包含至少一个基因,一个癌症,一个Variant。其自测100个句子中,只有10个能判别为符合CIViC注释标准,因此数据非常不平衡。由于数据的不平衡,通常采用的文本分类方法较难获得好的效果,因此作者使用关键词做初筛(文中的表1为四种CIViC证据文本筛选所需要的不同关键词。例如:Predictive关联证据对应的4个关键词为: sensitiv, resistance, efficay, predict.)。

4.标注策略:从图1对语料库构建过程的举例来看,主要是基因/突变相关的文本筛选,标注员只需要判断相关文本是CIViC四类证据中的哪一类,不需要标注微观层面的证据。与CIViC的构建团队合作标注。

5.使用Kindred关系提取Python包处理用关系注释的句子,抽取五种关系:四种证据类型和基因与突变之间的关联。(注:工作中所说关系抽取,并非传统NLP意义上的关系抽取,而是文本分类)

三、论文开发网页具备的基本功能

论文开发的数据库地址为:http://bionlp.bcgsc.ca/civicmine/。其具备的基本功能包括:

  1. 针对证据类型、基因、癌症类型、药物和突变的结果筛选。
  2. 搜索项与不同癌症类型、基因和药物关联情况的统计饼图。
  3. 具体的挖掘结果以表格形式呈现,包括证据类型、基因、癌症类型、药物、突变、是否包含于CIViC以及文献数量。
  4. 单击某个生物标志物,将会呈现对应的证据引文表格。包括带有链接的 PubMed ID、期刊信息、文章中的章节(标题/摘要/正文)和实际句子。
  5. 提供针对饼图和全部数据的下载功能。
四、对论文工作的评价
  • 该工作的文本挖掘方法较为朴实,与CancerMine类似。句子层面的筛选标准非常严格,全癌症范围仅筛选得到121,589条句子(注:我们的AD-PNRLE针对一个疾病便有864,855条),但也导致了证据数量少的问题,因此该工作没有可视化功能,避开了这一缺点。
  • 该工作的生物标注粒度只能对应到AGAC任务一和任务三的粒度,但相较于CancerMine更深了。相较而言,AD-PNRLE的粒度更细。
  • 该工作构建的语料库质量较高,与CIViC有较深的对应,CIViC中定义的四种证据类型对于临床十分有帮助。
  • 网页展示直观简洁,仅提供了突变筛选、统计饼图和证据表格,并未提供可视化和完整证据的呈现。
  • 对于结果的精度和召回率的权衡,延续了CancerMine中高Precision低Recall的标准。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: