— A Course for Graduates and Junior/Senior Undergraduates (本硕贯通课程-元年。)
(从今年起,面向生物信息本科专业的《自然语言处理与知识发现》与面向全校研究生共选的《生物文本挖掘和知识发现概论》连通为本硕贯通课程。)
Apply the NLP ideas in Biomedicine Texts
Welcome to the course: “BioNLP and Knowledge Discovery”
这门课程源于2016年起开设的研究生《生物文本挖掘与知识发现概论》,每年春季授课。2020年对生物信息专业本科生增开。2021年起,作为本硕贯通课程开设。课程大纲和课程相关资源请在本页获取。
我为什么要选(不要选)这门课程?
学生评语(2021年): “老师注重启发学生思考,从不同的角度引导学生,培养学生的科研思维。由于老师非常负责对学生要求很高,期望也很高,对学生较为严厉,缺少对学生的鼓励,学生课业压力较大。”
学生评语(2021年):“老师讲的很好,让我了解到一些以前接触较少得东西,十分有用,但是对于我这样代码基础较弱的来说还是有一定的挑战性。”
Discover The Syllabuse
Contents
1 Preface
2 Introduction of BioNLP and this Course
3 First Class of Linux and Lexical Analysis
4 R programming and Word Cloud
5 Gene Ontology (GO Enrichment and R Implementation)
6 Human Phenotype Ontology (Enrichment Theory and HPO Enrichment) (课件:Slides)
7 Semantic Annotation with Plant Trait Ontology (影片:Video)
8 PubMed Terms NER and Shell Programming
9 Advanced NLP Topic in Dependency Tree and Shortest Dependency Path
10 Advanced NLP Topic in Latent Semantic Analysis, from SVD to LSA
11 A Customized Biomedical Corpus on Mutations, AGAC (影片:Video)
12 Advanced NLP Topic in Sequence Labeling, from HMM to CRF
13 Advanced NLP Topic in Topic Modeling, from Variational Inference to Gibbs Sampling (课件:Slides)
14 Modern NLP Topic in Word Embedding, from Count-based to Prediction-based (课件:Slides)
15 Modern NLP Topic in Graph Embedding and Knowledge Graph, about Their Biomedical Application
Course Resources and External Links
Course Resources
☁ 作业一. 计算和比较语料库GENIA和AGAC的TTR,分析其语言丰富度的差异。完成此任务时,可以使用课堂讲授的Linux命令,也可以使用Python,R或其他脚本。
File:PubMed example texts (Download). 2. Brown corpus example text (Download)
GENIA: Kim, J.D., Ohta, T., Tateisi, Y. and Tsujii, J.I., 2003. GENIA corpus—a semantically annotated corpus for bio-textmining. Bioinformatics, 19(suppl_1), pp.i180-i182.
AGAC: Yuxing Wang, Kaiyin Zhou, Mina Gachloo, Jingbo Xia*. An Overview of the Active Gene Annotation Corpus and the BioNLP OST 2019 AGAC Track Tasks. BioNLP Open Shared Task 2019, workshop in EMNLP-IJCNLP 2019. Page: 62-71, Hong Kong, 2019.
☁ 作业二. 绘制比较语料库GENIA和AGAC的词云。完成此任务时,可以使用课堂讲授的R脚本,也可以使用Python或其他脚本。
Tutorial codes for WordCloud.R. Link.
☁ 作业三. GO富集和绘图。完成此任务时,使用课堂讲授的标准R脚本。
Tutorial codes for GO enrichment. Link.。
☁ 作业四. PubTator基因突变实体识别和Shell编程。完成此任务时,使用课堂讲授的Shell脚本。
☁ 作业五. Wapiti序列标注的CRF实现和.pat模板测试。完成此任务时,使用课堂讲授的“针对AGAC实体识别的Wapiti标准处理流程”。
Tutorial codes and data: GitHub link.
CRF特征函数模板/Wapiti manual:Link.
Slides for CRF: Link.
☁ 作业六. PyTorch下的神经网络训练用于AGAC的实体识别。在这部分,课堂讲授了LSTM+CRF和BERT+CRF两套代码,完成此任务时,选取其中的一套代码即可。
Tutorial codes and data (LSTM+CRF): GitHub link.
Tutorial codes and data (BERT+CRF): GitHub link.
☁ 作业七. 嵌入计算。在这部分,课堂讲授了Word2Vec和Bert两套代码用于进行Covid-19文献的词汇嵌入和展示,完成此任务时,选取其中的一套代码即可。
Tutorial codes and data (Word2Vec 和 BERT): GitHub link.
☁ 课程论文Latex模板。




模板下载 Link.
课程网络视频资源
课程资源来自哔哩哔哩网站,版权归属原视频制作团队,仅供参考。
课程论文装订册
☁ BioNLP and KD, papers collection. Link.
课后答疑
办公室: 逸夫楼C610


助教:欧阳思卓,彭钱钱

选课同学
Course for BioNLP
学科交叉,融会贯通,学好BioNLP.
Course Hours
See jw.hzau.edu.cn
Office
C610, Yifu bldg
Contact me
xiajingbo.math@gmail.com
External Links
☁ BioNLP and KD, 2020 Spring. Link
☁ NLP for Undergraduate Student (大数据本科NLP课程), 2020 Autumn. Link.
所有课程
♥ 回到 我的课程列表和逻辑关系图