BioNLP and Knowledge Discovery, 2021 Spring

— A Course for Graduates and Junior/Senior Undergraduates


Apply the NLP ideas in Biomedicine Texts


Welcome to the course: “BioNLP and Knowledge Discovery”

这门课程源于2016年起开设的研究生《生物文本挖掘与知识发现概论》,每年春季授课。2020年对生物信息专业本科生增开。2021年起,作为本硕贯通课程开设。课程大纲和课程相关资源请在本页获取。

我为什么要选(不要选)这门课程?

学生评语(2021年): “老师注重启发学生思考,从不同的角度引导学生,培养学生的科研思维。由于老师非常负责对学生要求很高,期望也很高,对学生较为严厉,缺少对学生的鼓励,学生课业压力较大。

学生评语(2021年):“老师讲的很好,让我了解到一些以前接触较少得东西,十分有用,但是对于我这样代码基础较弱的来说还是有一定的挑战性。


Discover The Syllabuse


Contents

1  Preface
2  Introduction of BioNLP and this Course
3  First Class of Linux and Lexical Analysis
4  R programming and Word Cloud
5  Gene Ontology (GO Enrichment and R Implementation)
6  Human Phenotype Ontology (Enrichment Theory and HPO Enrichment) (课件:Slides)
7  Semantic Annotation with Plant Trait Ontology (影片:Video)
8  PubMed Terms NER and Shell Programming
9 Advanced NLP Topic in Dependency Tree and Shortest Dependency Path
10 Advanced NLP Topic in Latent Semantic Analysis, from SVD to LSA
11 A Customized Biomedical Corpus on Mutations, AGAC (影片:Video)
12 Advanced NLP Topic in Sequence Labeling, from HMM to CRF
13 Advanced NLP Topic in Topic Modeling, from Variational Inference to Gibbs Sampling (课件:Slides)
14 Modern NLP Topic in Word Embedding, from Count-based to Prediction-based (课件:Slides)
15 Modern NLP Topic in Graph Embedding and Knowledge Graph, about Their Biomedical Application


Course Resources and External Links


Course Resources

作业一. 计算和比较语料库GENIA和AGAC的TTR,分析其语言丰富度的差异。完成此任务时,可以使用课堂讲授的Linux命令,也可以使用Python,R或其他脚本。

File:PubMed example texts (Download). 2. Brown corpus example text (Download)

GENIA: Kim, J.D., Ohta, T., Tateisi, Y. and Tsujii, J.I., 2003. GENIA corpus—a semantically annotated corpus for bio-textmining. Bioinformatics19(suppl_1), pp.i180-i182.

AGAC: Yuxing Wang, Kaiyin Zhou, Mina Gachloo, Jingbo Xia*. An Overview of the Active Gene Annotation Corpus and the BioNLP OST 2019 AGAC Track Tasks. BioNLP Open Shared Task 2019, workshop in EMNLP-IJCNLP 2019. Page: 62-71, Hong Kong, 2019.

作业二. 绘制比较语料库GENIA和AGAC的词云。完成此任务时,可以使用课堂讲授的R脚本,也可以使用Python或其他脚本。

Tutorial codes for WordCloud.R. Link.

作业三. GO富集和绘图。完成此任务时,使用课堂讲授的标准R脚本。

Tutorial codes for GO enrichment. Link.

作业四. PubTator基因突变实体识别和Shell编程。完成此任务时,使用课堂讲授的Shell脚本。

作业五. Wapiti序列标注的CRF实现和.pat模板测试。完成此任务时,使用课堂讲授的“针对AGAC实体识别的Wapiti标准处理流程”。

Tutorial codes and data: GitHub link.

CRF特征函数模板/Wapiti manual:Link.

Slides for CRF: Link.

作业六. PyTorch下的神经网络训练用于AGAC的实体识别。在这部分,课堂讲授了LSTM+CRF和BERT+CRF两套代码,完成此任务时,选取其中的一套代码即可。

Tutorial codes and data (LSTM+CRF): GitHub link.

Tutorial codes and data (BERT+CRF): GitHub link.

作业七. 嵌入计算。在这部分,课堂讲授了Word2Vec和Bert两套代码用于进行Covid-19文献的词汇嵌入和展示,完成此任务时,选取其中的一套代码即可。

Tutorial codes and data (Word2Vec 和 BERT): GitHub link.


课程论文Latex模板。

模板下载 Link.


课程论文装订册

☁ BioNLP and KD, papers collection. Link.


External Links

☁ BioNLP and KD, 2020 Spring. Link

☁  NLP for Undergraduate Student (大数据本科NLP课程), 2020 Autumn. Link.


课后答疑

办公室: 逸夫楼C610

助教:欧阳思卓,彭钱钱


选课同学


Course for BioNLP

学科交叉,融会贯通,学好BioNLP.

Course Hours

See jw.hzau.edu.cn

Office

C610, Yifu bldg

Contact me

xiajingbo.math@gmail.com

%d bloggers like this: