— A Course for Graduates and Junior/Senior Undergraduates (本硕贯通课程-次年。)
(从2021年起,面向生物信息本科专业的《自然语言处理与知识发现》与面向全校研究生共选的《生物文本挖掘和知识发现概论》连通为本硕贯通课程。今年选课的同学包括研究生12名,10名来自信息学院,2名来自生科和动科;本科生30名,以生信19级大三同学为主。)
Apply the NLP ideas in Biomedicine Texts
欢迎选课
Welcome to the course: “BioNLP and Knowledge Discovery”
这门课程源于2016年起开设的研究生《生物文本挖掘与知识发现概论》,每年春季授课。2020年对生物信息专业本科生增开。2021年起,作为本硕贯通课程开设。课程大纲和课程相关资源请在本页获取。
我为什么要选(不要选)这门课程?
学生评语(2021年): “老师注重启发学生思考,从不同的角度引导学生,培养学生的科研思维。由于老师非常负责对学生要求很高,期望也很高,对学生较为严厉,缺少对学生的鼓励,学生课业压力较大。”
学生评语(2021年):“老师讲的很好,让我了解到一些以前接触较少得东西,十分有用,但是对于我这样代码基础较弱的来说还是有一定的挑战性。”
Discover The Syllabuse
发现课程
Contents
1 Preface
2 Introduction of BioNLP and this Course (预览)
3 词汇计算
4 本体和本体富集 (GO, HPO 和PTO) (预览)
5 PubMed Terms NER and Shell Programming (预览)
6 Advanced NLP Topic in Dependency Tree and Shortest Dependency Path
7 A Customized Biomedical Corpus on Mutations, AGAC
8 Modern NLP Topic in Word Embedding, from Count-based to Prediction-based(预览)
itc实验安排
实验一 01/04/2022 (第六周)
名称 | 《基本词汇计算》 |
时长 | 2节课 |
学习目的 | Linux终端操作 |
数据 | blca_evidence.txt (7.6MB) |
实现方式 | Terminal终端 |
作业 | 截图上交 |
实验二 08/04/2022(第七周)
名称 | 《词云展示》 |
时长 | 2节课 |
学习目的 | Python调包,PubMed E-utilities |
数据 | blca_evidence.txt (7.6MB), 自己下的PubMed数据 |
实现方式 | Jupyter |
作业 | 截图上交 |
实验三 22/04/2022(第九周)
名称 | 《本体富集分析》 |
时长 | 4节课 |
学习目的 | 一个具体的算法的调包实现 |
数据 | 自动下载的数据 |
实现方式 | Jupyter |
作业 | 截图上交 |
实验四 29/04/2022(第十周)
名称 | 《PubMed文献实体识别》 |
时长 | 4节课 |
学习目的 | Shell脚本抓取PubTator网页,对所抓取的海量文本的分析(标注Mesh计数) |
数据 | Shell抓取,pubtator_blca.txt (166 MB) |
实现方式 | Terminal终端, Jupyter |
作业 | 截图上交 |
实验五 06/05/2022(第十一周)
名称 | 《基于LSTM,CRF和BERT的序列标注》 |
时长 | 4节课 |
学习目的 | PyTorch对PubTator训练集的自动标注 |
数据 | 少量规模的PubTator标注数据 |
实现方式 | Jupyter |
作业 | 截图上交 |
Course Resources and External Links
课程资源和外部链接
推荐文献-课前阅读
☁ 1. 【了解近十年来BioNLP领域的前沿问题】Zhao, S., Su, C., Lu, Z., & Wang, F. (2021). Recent advances in biomedical literature mining. Briefings in Bioinformatics, 22(3), bbaa057. (论文链接)
☁ 2. 【了解一个知名的生物医药专属的语料库资源】Kim, J. D., Ohta, T., & Tsujii, J. I. (2008). Corpus annotation for mining biomedical events from literature. BMC bioinformatics, 9(1), 1-25. (论文链接)
☁ 3.【了解一个本体资源与生物信息学知识发现的结合案例】Wang, S., Meng, X., Wang, Y., Liu, Y., & Xia, J. (2019). HPO-Shuffle: an associated gene prioritization strategy and its application in drug repurposing for the treatment of canine epilepsy. Bioscience reports, 39(9). (论文链接)
☁ 4. 【了解一个流行的全PubMed范围的生物医学知识标注资源】Wei, C. H., Allot, A., Leaman, R., & Lu, Z. (2019). PubTator central: automated concept annotation for biomedical full text articles. Nucleic acids research, 47(W1), W587-W593.(论文链接)
☁ 5.【了解斯坦福语法依存树结构】De Marneffe, M. C., & Manning, C. D. (2008). Stanford typed dependencies manual (pp. 338-345). Technical report, Stanford University.(文献链接)
课程论文提交要求-论文模板
- 课程论文有指定提交时间节点。
- 短文提交日期:(
4月8日
Friday),请打印纸质稿,当日带至课堂。 - 长文初稿提交日期:(4月18日Monday),请打印纸质稿,当日带至课堂。
- 长文初稿互评意见提交日期:(4月22日Friday),当日分发表格,现场填写、提交。
- 长文修订稿提交日期:(5月6日Friday),请打印纸质稿,当日带至课堂。
- 长文终稿提交日期:(5月9日Mondy)。请提交论文电子档和纸质版。
- 建议按照5月6日得到的互评建议对长文进行最后的修订和润色;
- 电子版提交事项:长文终稿的电子版请发送到xiajingbo.math@gmail.com,在邮件标题中烦请告知组号,截止时间为5月9日10:00am(上午);
- 纸版提交事项:如相较5月6日提交版本并无进一步修订计划,可以以5月6日版本作为小组论文终稿版本;如有修订,请于5月9日将终稿纸质版带到课堂。
- 按照课程论文的 Tex 模板,严格遵照模式进行撰写。
- 课程论文 3 人成组合作撰写(鼓励研究生和本科生成组,鼓励本学院和外院成组)。
☁ 课程论文Latex模板 (下载链接)
☁ 模版pdf(先睹为快)
课程论文下载
《2022年春课程论文合集》:下载链接
课外网络视频资源
课程资源来自哔哩哔哩网站,版权归属原视频制作团队,仅供参考。
External Links
☁ BioNLP and KD, 2021 Spring. Link
☁ BioNLP and KD, 2020 Spring. Link
☁ NLP for Undergraduate Student (大数据本科NLP课程), 2020 Autumn. Link.
所有课程
♥ 回到 我的课程列表和逻辑关系图
Find us!
找到我们!
课后答疑
办公室: 逸夫楼C610


助教:彭钱钱,周星宇
课堂掠影

Course for BioNLP
学科交叉,融会贯通,学好BioNLP.
Course Hours
See jw.hzau.edu.cn
Office
C610, Yifu bldg
Contact me
xiajingbo.math@gmail.com