文章《CancerVar: An artificial intelligence–empowered platform for clinical interpretation of somatic mutations in cancer》https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9075800/ 作者:Quan Li, Zilin Ren, Kajia Cao, Marilyn M. Li, Kai Wang, Yunyun Zhou 引用方式:Li, Q., Ren, Z., Cao, K., Li, M. M., Wang, K., & Zhou, Y. (2022). CancerVar: An artificial intelligence-empowered platform for clinical interpretation of somatic mutations in cancer. Science advances, 8(18), eabj1624. |
论文评述:连钰珑
(整理自姚昕智、彭钱钱讨论材料。)
2022-05-26
一、论文主要研究内容和结果:
本文的切入点在于如何完成大规模体细胞突变的临床一致性解释。“大规模”和“一致性”的提出源于作者的以下观察:
1.现有的数据库只对热点突变进行了人工的注释,大量且有影响的体细胞突变尚待挖掘,但是人工注释需要耗费大量的人力与物力。基于这一点,本文提出了一种自动化的框架来完成对一千二百多万个体细胞突变的注释。
2.已有许多工具、算法被用来预测突变的功能影响,但结果的不一致性很常见。另外这些软件虽然对预测癌症驱动基因的整体影响很有帮助,但是对于驱动突变的预测并不友好。基于这点,作者利用一个生成对抗网络来预测新的Driver mutation。
CancerVar基于AMP/ASCO/CAP2017 Guidelines对13百万个体细胞突变自动收集了12种特征,并分别使用基于规则和基于深度学习的方法计算突变在癌症中的致病分数。预测的分数同已有的数据库和已有工具进行比较皆显示出较好的一致性。
最后每个突变及预测的分数,12种特征以及突变的其他外部连接通过网络服务进行发表,并可以通过突变位点,rsID等方式进行检索。
二、论文中用到的文本挖掘方法:
论文用到的技术领先路线,包括如下:
1.工作基于AMP/ASCO/CAP2017 guidelines。该指南规定了12个用于刻画突变在癌症中致病性的特征,以及4类突变致病性的等级。
2.基于规则的打分方法。自动化收集了1300万的突变及其12个特征,并根据这12个特征自动对突变的致病性进行打分。用户可根据对突变的先验知识调整这12个特征在打分中的权重。
3.基于深度学习的打分方法。利用内部训练集搭建了基于GAN的突变致病性打分网络,以上述12个特征以及现有的突变致病性打分工具所计算的分数作为输入,重新对突变的致病性进行打分。
4.结果同多个数据库及收费软件的已有结果进行比较,皆显示出很好地一致性,证明两套打分系统的可靠。
三、论文开发网页具备的基本功能:
论文开发的数据地址为:https://cancervar.wglab.org。其具备的基本功能包括
1.提供了多种突变的检索方法,包括染色体位置及碱基改变,rsID,HGNC gene symbol及cDNA突变,HGNC gene symbol及蛋白改变,HGNC gene symbol及Alternations。
2.对于每一个检索的突变,提供了突变的基本信息,基于规则和深 度学习的致病性打分及在AMP/ASCO/CAP2017 guidelines中规定的致病性分类。12种AMP/ASCO/CAP2017 guidelines 中规定的特征及详细的证据。一些外部链接(如Clinvar、Cosmic、Oncokb)已有的突变致病性打分工具的结果。
3.对每个突变自动的生成了一段文本描述。
4.提供了命令行计算,下载结果的功能。
四、对论文工作的评价:
1.基于AMP/ASCO/CAP2017 guidelines的做法在产业界应该较为讨喜,同时自动收集该指南中特征的技术,可以加以关注,作为我们后面网页构建的外链来源。
2.该团队对生物问题的把握较为准确,一方面是对领域研究者认可的标准的把握,一个是对领域痛点问题的把握,包括cDNA和拷贝数变异的问题。
3.作为一个打分工具,非常需要验证结果的可靠性,所以文章里有大量的同已有数据的一致性比较,同时作为一个开源工具可以做到和大量收费工具高度的一致性这点非常讨喜。
4.自动化生成突变的文本报告这一点在技术上不会很难,同时避免了用户要自己整理散乱的结果,比较友好,可以用于我们的工作。
五、CancerVar和CancerMine工作比较:
1.两个工作面向对象层次不同,CancerMine 面向基因,而CancerVar面向更细的突变。我们的工作更类似于 CancerMine的基因层面,一个原因就是越细的知识约难通过 NLP 方法还原,但是我们挖掘结果中同样会有突变层次的知识,所以可以在外链上同时考虑这两个工作的做法。
2.两个工作结果可靠性的证明方向不同。CancerMine从文献报道中整理已有知识,着重于高正确率的挖掘结果,但是结果的准确率其实很难和已有的数据库进行比较,主要是因为同已有数据库的overlap较少。所以利用挖掘结果所来源的文献数量来控制结果正确率,是一个较为聪明的做法。而 CancerVar 主要是一个打分工具,所以需要大量的同已有数据库和工具的一致性比较来证明所打分数的可靠性。我们的挖掘结果应该也会类似于 CancerMine,同已有数据库重叠较少,但是可以通过一些打分系统来牺牲召回率,保证准确率。
3.在网页设计上,后续工作可更多参考 CancerMine的风格和统计视角,以及CancerVar的外链和自动生成文本报告。