AD-PNRLE数据库使用指南

HZAU-BioNLP Team

Dec, 2022

AD-PNRLE “阿兹海默症-富文本证据病理网络”(Pathology Network with Rich Literature Evidence)的简称。AD-PNRLE提供便捷可交互的基因和表型搜索服务,从而提供关联推荐、互作富集,以及文本证据的可视化呈现。AD-PNRLE提供的启发性的文献证据自动化搜索服务无商业用途,旨在为AD-机理探索的科学研究提供服务。

访问网址:http://lit-evi.hzau.edu.cn/AD-PNRLE/ 

指南视频: Part 1. 《数据服务总体框架》2分47秒

访问指南: Part 2. 《如何进行表型搜索》2分24秒

访问指南: Part 3. 《如何进行基因搜索》2分20秒

数据内涵:数据包含阿兹海默(Alzheimer’s Disease, AD)相关PubMed摘要和PMC全文文献。针对以上文献数据,课题组利用所开发的语料库及自然语言处理工具获取了海量的基因、突变,表型实体及其关联性描述,从而搭建了AD-PNRLE文献证据网络并提供数据服务。

数据规模:AD-PNRLE 包含与AD病理机制知识表示相关的

  • PubMED摘要篇数:110,664
  • PMC全文篇数: 49,269
  • 条目(句子)数量:864,855
  • 携带突变描述的基因数量: 6,831
  • 标准HPO条目数量: 1,678
  • 标准HPO条目数量: 4,355
  • 标准MeSH条目数量: 2,975

1. AD-PNRLE的病理机制知识表示范式

AD-PNRLE以丰富的基因-表型关联文本证据为基础,搭建可追溯的病理机制表示范式(Traceable pathology mechanism representation)。其中使用到的分子标记物主要为基因及突变,表型描述的术语采用Gene Ontology (GO), Human Phenotype Ontology (HPO)及Medical Subject Headings (MeSH)三个标准本体。

首先,AD-PNRLE从文本中捕获突变、基因(或蛋白)实体以及 “occurred_in” 关系;同时,挖掘基因突变引发的下游生物过程(GO)、表型(HPO)和症状(MeSH),并识别基因和表型关联的“caused”关系。由此,“可追溯的病理机制表示范式”对上游基因、突变和下游表型数据间的机理描述给出了明确的定义。

可追溯性病理机制包含两个内涵:

 上游基因和下游表型的机理关联是明确可追溯的,基因、突变是因,表型是果,因果关系构成对AD病理机制的描述。

 基因-表型的关联描述基于句子层级的文本证据,证据是可追溯的

基于对以上基因-表型关联的海量文献挖掘及证据追踪,AD-PNRLE所提供的病理机制表示范式为AD病理机制的探索和循证提供了可能。


2. AD-PNRLE 数据服务模块

AD-PNRLE主要针对阿兹海默病理背后的基因、突变,表型关联的文本挖掘结果提供三类数据服务模块:关联推荐,互作富集以及文本证据的查询及可视化。

  针对基因或表型的关联推荐(Association Recommendation for Phenotype or Genotype query) 模块

针对查询的基因(表型)分别提供所关联的表型(基因)推荐。

  基于基因-表型关联的互作富集(Interaction Enrichment Based on Genotype-Phenotype Association)模块

针对查询的基因(表型),利用关联富集,将其扩展到互作基因(表型)。

  文本证据可视化(Visualization of Literature Evidence)模块

针对所有的基因-表型关联,提供可视化的数据访问及文献证据追踪服务。

4. 查询流程和病理知识探索的样例
样例1,针对mitochondrial相关表型查询项的数据服务

一般查询流程

  • 用户输入mitochondrial,后台列出所有包含mitochondrial的表型条目(GO/HPO/MeSH)供用户选择;
  • 针对所选表型条目,关联推荐(Association Recommendation)模块提供关联到的基因结果并予以重要性排序;
  • 互作富集(Interaction Enrichment)模块依据表型富集结果,提供与mitochondrial互作的其他表型;
  • 针对以上每一步计算,文本证据可视化(Visualization of Literature Evidence)模块提供单步或全局的文献证据可视化及查询服务。

文本证据可视化网络的病理知识探索

  • 用户鼠标悬停在与线粒体表型相关的目标基因(图例:PINK1)上,可查看与其有Occur_in关系的突变,在左侧功能框,可进一步复选rsID, modification, point mutation等不同突变类型。
  • 用户鼠标悬停在选定的某个突变上(图例:PINK1:knockout),可高亮展示该突变引起的下游表型。
  • 点击突变和待探索表型的连边,悬浮窗展示相关机理的文本证据,并以富标注风格对突变、基因等生物标志物和表型描述项予以高亮。
  • 点选蓝色按钮,可获得该机理描述的所有文本证据,及其PubMED外链。

文本证据可视化网络提供的其他报表结果

针对用户的搜索项和可视化结果,文本证据可视化模块提供:

  • 可视化结果数据的下载;
  • 可视化视图的图片生成;
  • 摘要(Abstract Summary)生成
  • 可视化结果的统计信息;
  • 以及,条目的表格展示。

ENJOY!

%d bloggers like this: