— A Course for Graduates and Junior/Senior Undergraduates (本硕贯通课程-叁年。)
(从2021年起,面向生物信息本科专业的《自然语言处理与知识发现》与面向全校研究生共选的《生物文本挖掘和知识发现概论》连通为本硕贯通课程。今年选课的同学为本科生44名,以生物信息20级大三年级同学为主。)
Apply the NLP ideas in Biomedicine Texts
欢迎选课
Welcome to the course: “BioNLP and Knowledge Discovery”
这门课程源于2016年起开设的研究生《生物文本挖掘与知识发现概论》,每年春季授课。2020年对生物信息专业本科生增开。2021年起,作为本硕贯通课程开设。课程大纲和课程相关资源请在本页获取。
我为什么要选(不要选)这门课程?
学生评语(2021年): “老师注重启发学生思考,从不同的角度引导学生,培养学生的科研思维。由于老师非常负责对学生要求很高,期望也很高,对学生较为严厉,缺少对学生的鼓励,学生课业压力较大。”
学生评语(2021年):“老师讲的很好,让我了解到一些以前接触较少得东西,十分有用,但是对于我这样代码基础较弱的来说还是有一定的挑战性。”
学生评语(2022年):“课程节奏紧张,任务较难,但老师讲解十分耐心,积极回应积极帮助同学们的各种疑问。”
Discover The Syllabuse
发现课程
一、日程安排
日期 | 内容 |
14, Feb | ▩ Ch0.《课程概论》 ▩ Ch1.《生物医药自然语言处理BioNLP的基本问题》 |
21, Feb | ▩ Ch2.《词汇计算基础》(文本材料:《作物/疾病科学文献》) ▩ 专题1:《作物/疾病文献的知识挖掘目标》 |
28, Feb | ▩ Ch2.《词汇计算基础》 |
3, Mar 实验课 | ◎ 实验任务一、《基本词汇计算》 |
7, Mar | ▩ Ch4. 本体和本体富集 (GO, HPO 和PTO) |
10, Mar 实验课 | ◎ Ch3.《NLTK文本预处理:分词、分句、词频、POS、近似词汇》 ◎ 实验任务二、《词云计算》 |
14, Mar | ▩ Ch5.《语法和依存关系》 |
17, Mar 实验课 | (课程大论文短文提交日) ◎ Quiz A:算法理论考题 ◎ 实验任务三、《本体富集分析》 ◎ 专题2:《作物/疾病文献的词汇分析》 |
21, Mar | ▩ Ch6.《PubMed实体识别和Shell编程》 |
24, Mar 实验课 | (课程大论文长文初稿提交日) ◎ Quiz B:代码考核 +《作物、疾病文献挖掘》小组汇报 ◎ 实验任务四、《PubMed文献实体识别》 |
28, Mar | ▩ Ch7. 《语义和嵌入计算》 |
4, Apr | (课程大论文长文修订稿提交日) ▩ Quiz C:《作物、疾病文献挖掘》小组汇报 ▩ 专题3:《生物文本挖掘和知识图谱》 |
7, Apr 实验课 | ◎ 随堂考查 ◎ 实验任务五、《Word2Vec语义嵌入》 |
二、ITC实验安排
◎ 实验一 03/03/2023 (第三周)
名称 | 《基本词汇计算》 |
时长 | 2节课 |
学习目的 | Linux终端操作 |
数据 | PubMed文献数据 |
实现方式 | Terminal终端 |
作业 | 截图上交 |
◎ 实验二 03/10/2023(第四周)
名称 | 《词云计算》 |
时长 | 2节课 |
学习目的 | R调包 |
数据 | PubMed文献数据 |
实现方式 | R Studio |
作业 | 截图上交 |
◎ 实验三 03/17/2023(第五周)
名称 | 《本体富集分析》 |
时长 | 4节课 |
学习目的 | 一个具体的算法的调包实现 |
数据 | 自动下载的数据 |
实现方式 | R Studio |
作业 | 截图上交 |
◎ 实验四 03/24/2023(第六周)
名称 | 《PubMed文献实体识别》 |
时长 | 4节课 |
学习目的 | Shell脚本抓取PubTator网页,对所抓取的海量文本的分析 |
数据 | Shell编程,API抓取 |
实现方式 | Terminal终端 |
作业 | 截图上交 |
◎ 实验五 04/07/2023(第八周)
名称 | 《Word2Vec语义嵌入》 |
时长 | 4节课 |
学习目的 | Python下神经网络搭建和Word2Vec嵌入计算 |
数据 | PubMed文献语料 |
实现方式 | Python |
作业 | 截图上交 |
三、课程大论文安排
名称 | 《作物/疾病文献挖掘和知识发现》 |
时长 | 整个学期 |
要求 | 自愿组队完成,每组2-3人。 |
数据 | 使用指定的作物/疾病科学文献。 |
论文格式 | 论文无特别格式要求。 |
提交时间 | 依时间点,逐次提交短文,长文初稿,修改稿,终稿。 |
四、课程考核
- 平时 60%
- 实验报告 20%
- 三次课堂测验 20%
- 课堂表现 20% (其中,课程大论文为可选项)
- 期末考试 40%
Course Resources and External Links
课程资源和外部链接
五、推荐文献-课前阅读
☁ 1. 【了解近十年来BioNLP领域的前沿问题】Zhao, S., Su, C., Lu, Z., & Wang, F. (2021). Recent advances in biomedical literature mining. Briefings in Bioinformatics, 22(3), bbaa057. (论文链接)
☁ 2. 【了解一个知名的生物医药专属的语料库资源】Kim, J. D., Ohta, T., & Tsujii, J. I. (2008). Corpus annotation for mining biomedical events from literature. BMC bioinformatics, 9(1), 1-25. (论文链接)
☁ 3.【了解一个本体资源与生物信息学知识发现的结合案例】Wang, S., Meng, X., Wang, Y., Liu, Y., & Xia, J. (2019). HPO-Shuffle: an associated gene prioritization strategy and its application in drug repurposing for the treatment of canine epilepsy. Bioscience reports, 39(9). (论文链接)
☁ 4. 【了解一个流行的全PubMed范围的生物医学知识标注资源】Wei, C. H., Allot, A., Leaman, R., & Lu, Z. (2019). PubTator central: automated concept annotation for biomedical full text articles. Nucleic acids research, 47(W1), W587-W593.(论文链接)
☁ 5.【了解斯坦福语法依存树结构】De Marneffe, M. C., & Manning, C. D. (2008). Stanford typed dependencies manual (pp. 338-345). Technical report, Stanford University.(文献链接)
External Links
☁ BioNLP and KD, 2022 Spring. Link
☁ BioNLP and KD, 2021 Spring. Link
☁ BioNLP and KD, 2020 Spring. Link
☁ NLP for Undergraduate Student (大数据本科NLP课程), 2022 Autumn. Link.
☁ NLP for Undergraduate Student (大数据本科NLP课程), 2020 Autumn. Link.
所有课程
♥ 回到 我的课程列表和逻辑关系图
Find us!
找到我们!
课后答疑
办公室: 逸夫楼C610

助教:贺芷涵
Course for BioNLP
学科交叉,融会贯通,学好BioNLP.
Course Hours
See jw.hzau.edu.cn
Office
C610, Yifu bldg
Contact me
xiajingbo.math@gmail.com