《AGAC语料库的设计思路》——再读课题组二师姐经典工作

文章:《An Active Gene Annotation Corpus and Its Application on Anti-epilepsy Drug Discovery》https://ieeexplore.ieee.org/abstract/document/8983031

作者:Yuxing Wang, Kaiyin Zhou, Jin-Dong Kim, Kevin Cohen, Mina Gachloo, Yuxin Ren, Shanghui Nie, Xuan Qin, Panzhong Lu, Jingbo Xia*

引用方式:Wang Y, Zhou K, Kim J D, et al. An active gene annotation corpus and its application on anti-epilepsy drug discovery[C]//2019 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE, 2019: 512-519.

论文解读:何艳红、陈付敏

一、论文主要研究内容和结果

1. AGAC的构建:
①AGAC(Active Gene Annotation Corpus)是一个专用于基因变异后功能变化注释的语料库,旨在捕捉生物医学文本中的LOF(loss of function)和GOF(gain of function)信息,以指导药物再利用研究。
②AGAC包含500篇从PubMed选取并人工标注的摘要,使用5种生物概念标签(变异、分子生理活性、相互作用、通路、细胞生理活动)和3种调控概念标签(正向调节、负向调节、中性调节)进行概念层级注释。
③引入“Theme Of”和“Cause Of”两种关系类型,以揭示调控概念与主题和因果元素间的关联。


2.AGAC的质量评估:
通过计算注释者间一致性、使用条件随机场(CRF)进行自动注释,以及基于LSTM和四种传统分类器进行多类别分类,从多个维度验证AGAC的高质量。


3.AGAC在药物发现中的应用:
通过AGAC指导的文本检索、过滤、分类以及与DrugBank条目的比对,识别出281个与癫痫相关的基因—药物对。其中,112种药物里有30种已被数据库记录为抗癫痫药物(AED)。对于未被数据库收录的10种新预测的多靶点药物,有6种通过文献支持被证实与癫痫相关(奥沙西泮、替马西泮、哈拉西泮、普拉西泮、唑吡坦、硫戊醛)。

二、论文中用到的质量评估方法

1.条件随机场(CRF):作为基础的命名实体识别(NER)和序列标注算法,CRF用于AGAC注释的自动评估。通过将特征函数引入马尔可夫随机场,CRF 公式化了输出序列标签 y 在观察向量 x 上的概率。在AGAC标注评估中,输入x来源于500篇生物医学文本,输出序列标签y代表8种不同的概念标签。采用上下文依赖词典和前缀匹配等特征函数。


2.基于LSTM的神经网络:为探究AGAC标签对“LOF/GOF/Unknown”主题分类的贡献,论文构建了标准的 Bi-LSTM 神经网络,并使用词嵌入初始化输入。将嵌入输入 Bi-LSTM 块后,接着将拼接后的向量输入带有tanh激活函数的全连接层。最后,构建softmax层将神经向量转化为三维向量,实现LOF/GOF/Unknown的分类。此外,论文中还设计了上述 LSTM 神经网络的变体结构:LSTM-tags。设计 LSTM 和 LSTM-tags 的目的是对支持 LOF/GOF/Unknown 主题分类的分类器在使用和不使用 AGAC 注释标签之间进行比较。


3.四种不同传统算法的分类器:朴素贝叶斯、SVM、XGboost、Bagging。 在所有这些分类器中,AGAC 标签仅用作文本特征,使用AGAC标签的四种传统分类器比基于LSTM的方法获得了更高的F分数,Bagging的精度和宏观F得分最高。

三、论文开发的语料库地址

论文中开发的AGAC 数据下载地址为:http://lit-evi.hzau.edu.cn/AGAC-CHIP2022/
打开网页后,点击“下载”下拉菜单中的“训练数据下载”,即可获取相关数据。

数据示例:
{“target”:”http://pubannotation.org/docs/sourcedb/PubMed/sourceid/15678000″,”sourcedb”:”PubMed”,”sourceid”:”15678000″,”text”:”[Autosomal dominant limb-girdle muscular dystrophy associated with conduction defects (LGMD1B): a description of 8 new families with the LMNA gene mutations].\nLa dystrophie musculaire des ceintures autosomique dominante associ\u00e9e \u00e0 des troubles de la conduction cardiaque (LGMD1B). Description de 8 nouvelles familles avec mutations du g\u00e8ne LMNA.\nINTRODUCTION: Limb girdle muscular dystrophy type 1b (LGMD1B), due to LMNA gene mutations, is a relatively rare form of LGMD characterized by proximal muscle involvement associated with heart involvement comprising atrio-ventricular conduction blocks and dilated cardiomyopathy. Its clinical and genetic diagnosis is crucial for cardiac management and genetic counselling. Seven LMNA mutations have been previously reported to be responsible for LGMD1B.\nPATIENTS AND METHODS: We describe the neurological and cardiologic features of 14 patients belonging to 8 families in whom we identified 6 different LMNA mutations, 4 of them having never been reported. Results. Eleven patients had an LGMD1B phenotype with scapulohumeral and pelvic-femoral involvement. Thirteen patients had cardiac disease associating conduction defects (12 patients) or arrhythmias (9 patients). Seven patients needed cardiac device (pacemaker or implantable cardiac defibrillator) and two had heart transplantation.\nCONCLUSION: This study allowed us to specify the clinical characteristics of this entity and to outline the first phenotype/genotype relations resulting from these observations.”,”project”:”AGAC_answer”,”denotations”:[{“id”:”T1″,”span”:{“begin”:360,”end”:398},”obj”:”Disease”},{“id”:”T4″,”span”:{“begin”:409,”end”:415},”obj”:”Reg”},{“id”:”T2″,”span”:{“begin”:416,”end”:420},”obj”:”Gene”},{“id”:”T3″,”span”:{“begin”:426,”end”:435},”obj”:”Var”}],”relations”:[{“id”:”R1″,”pred”:”ThemeOf”,”subj”:”T2″,”obj”:”T3″},{“id”:”R2″,”pred”:”CauseOf”,”subj”:”T3″,”obj”:”T4″},{“id”:”R3″,”pred”:”ThemeOf”,”subj”:”T1″,”obj”:”T4″}]}
格式说明:
“target”:注释文本的Pubannotation链接
“sourcedb”:文本来源,AGAC中的所有文本都来自PubMed
“sourceid”:文本的PMID
“text”:文本原始摘要
“denotations”:对应任务一的触发词注释,包括“id”;“span”:实体在文本中的位置信息;“obj”:实体被标注的标签。以{“id”:”T1″,”span”:{“begin”:360,”end”:398},”obj”:”Disease”}为例:”span”:{“begin”:360,”end”:398}表示实体在文本中的起始位置为第360个字符,结束位置为第398个字符,即Limb girdle muscular dystrophy type 1b (LGMD1B);”obj”:”Disease”表示该实体是某种疾病。
“relations”:对应任务二触发词之间的语义角色,包括“id”;“pred”:语义角色;“subj”和“obj”:任务一中触发词的“id”,关联方向从“subj”到“obj”

四、对论文工作的评价

1.AGAC填补了生物医学文本中LOF/GOF突变信息的空白,有助于药物再利用研究,特别是在抗癫痫药物发现中展现出重要价值。


2.通过多角度质量评估,证明了AGAC的科学性和可靠性。


3.尽管AGAC已验证其高质量,但规模相对较小,可能无法覆盖所有基因与表型关联。对于新预测的多靶点药物,其实际疗效和安全性仍需临床实验验证。

Leave a comment