文章《CancerMine: a literature-mined resource for drivers, oncogenes and tumor suppressors in cancer》https://www.nature.com/articles/s41592-019-0422-y#MOESM1 作者:Jake Lever , Eric Y. Zhao , Jasleen Grewal, Martin R. Jones and Steven J. M. Jones 引用方式:Lever, J. , Zhao, E. Y. , Grewal, J. , Jones, M. R. , & Jones, S. . (2019). Cancermine: a literature-mined resource for drivers, oncogenes and tumor suppressors in cancer. Nature Methods, 16(6). |
论文评述:连钰珑
(整理自姚昕智、彭钱钱讨论材料。)
2022-05-24
一、论文主要研究内容和结果
该工作通过自然语言处理方法,自动的从海量文献中挖掘基因在不同癌症类型中扮演的三种角色,分别是Driver,Oncogenes,Tumor suppressor genes (TSG),从而弥补已有数据库不能及时更新该知识的漏洞,该工作对理解并发现癌症关键基因有着重要意义。
最后,该工作共识别到 38,106 个句子中 6,843 个Drivers 基因的提及(Mentions),26,909个Oncogenes的提及和14,460个TSG的提及。这些提及最终对应到425个不同癌症类型的4038个Driver基因、Onco基因和TSG。
二、论文中用到的文本挖掘方法:
论文用到了较多的BioNLP常规手段,包括如下:
1. 通过 UMLS和DO 构建癌症名称字典,NCBI gene list构建基因名称字典。
2. 通过精准字符串匹配的方法匹配句子中的基因和癌症实体。
3. 通过人工专家构建了1,600个句子的语料库,标注了句子中所描述基因和疾病间的Drivers,Oncogenes 和 TSG的关系。
4. 通过 Kindred relation classifier学习并预测。
三、论文开发网页具备的基本功能:
论文开发的数据地址为:http://bionlp.bcgsc.ca/cancermine/。其具备的基本功能包括
1. 挖掘结果对基因覆盖情况的统计饼图。
2. 分别以基因和癌症为中心展示的挖掘结果。
3. 可以输入基因列表批量查询挖掘结果。
4. 可以通过输入癌症类型列表来获得 癌症/基因-类型的热图及层次聚类结果。
5. 结果主要以不同层次的统计柱状图进行展示,如一个基因在不同 癌症中分别被报道为 Drivers,Oncogenes 和 TSG的数量,一个癌症中不同基因被报道为Drivers,Oncogenes 和 TSG的数量。而具体的挖掘结果,句子证据信息通过表格进行展示且提供下载。
四、对论文工作的评价:
1. 该工作的文本挖掘方法较为朴实,而PNRLE 的文本挖掘方法是基于AGAC语料库的深度学习方法以及基于规则链条的抽取方法。
2. 该工作的生物问题粒度偏粗,而PNRLE 主要研究的是复杂的生物代谢通路。
3. 网页展示较为直观间接,分别以基因和疾病为中心的搜索展示可以参考,技术实现门槛不高。
4. 与对比数据库的Overlap 较少,解释为数据库中很多证据不能在文献中找到,而大量文献中很多实时的结果不能被及时整理,提供了很好地视角。
5. 结果强调牺牲 Recall 带来高 Precision,强化了 PNRLE 构建中的这一判断。