BioNLP and Knowledge Discovery, 2025 Autumn

— A Course for Graduates and Junior/Senior Undergraduates (本硕贯通课程—伍年。）

《生物文本挖掘和知识发现概论》(课程代码：317210004009) 自2016年起向研究生开设。2020年列入生物信息专业本科生培养方案，课程名为《自然语言处理与知识发现》(课程代码3173009011)，建议先修课程包括《分子生物学》、《生物信息学导论》等。2021年，本课程被设置为本硕贯通课程。

因跟随生物信息专业2023年度的本科培养方案调整，自2023年起，授课学期更换为秋季。2024年，该门课程被列入人工智能专业培养方案，有志愿攻读生物信息、医疗信息方向硕士学位的同学可考虑选修。

2025年选课的同学为生物信息2023级本科生22名，人工智能22级本科生15名，智慧农业22级本科生1名，和研究生0名，总计38位。

Apply the NLP ideas in Biomedicine Texts

欢迎选课

Welcome to the course: “BioNLP and Knowledge Discovery”

关键词

PubMed文献中的基因、突变、疾病实体识别
基因本体、人类表型本体、和富集分析
疾病文献中的关键突变，及其下游分子功能
作物文献中的关键基因及其影响的表型

我为什么要选（不要选）这门课程？

学生评语（2024年秋）：”哭了，这门课真的比我想象中的~~要难好多~~，但是还是谢谢老师给予的帮助，让我们能够顺利完成课程要求。）”

学生评语（2024年秋）：“夏老师的课第一节就“劝退”数位同学，我很荣幸能坚持完成课程论文。建议夏老师能在同学们构思论文方向时候进行指导帮助，做到最后~~有点迷失方向~~(本人太菜)，还是比较推荐选这门课，很提升能力(bushi”_{（注：根据此条建议，对论文的严格进度控制进行教学调整。）}

学生评语（2024年秋）：“任务~~有点重~~，不过能学到很多东西”

学生评语（2023年秋）：“非常奈斯的老师，课程很难但老师给的指导很充足，同时亲和度拉满能学到很多东西，提供的技术指导很实用，对背后原理也讲的很通俗”_{（注：此轮选课同学评论趋于温和。）}

学生评语（2023年春）：“老师的课程内容非常硬核，需要付出~~大量的精力~~才能完成，但是从中我获得了很多思维的启发，让我获得了初步的科研思维。提个小建议，在课程初期就要求完成短文，但在课程极后期才在课上讲解使用pubtator下载数据的方式，导致初期短文~~进度艰难~~，建议斟酌过程考核和课程安排，祝课程未来更好！”_{（注：根据此条建议，将《依存关系和深层语义》和《PubMed实体识别和Shell编程》进行了前后调换。）}

学生评语（2023年春）：“非常~~Push~~但是能够学到很多东西，收获远大于学习过程的艰难。”

学生评语（2023年春）：“课上讲的部分东西对要写的大论文联系不够多，对代码的讲解较少，~~课程很难~~！”

学生评语（2022年）：“课程节奏紧张，任务较难，但老师讲解十分耐心，积极回应积极帮助同学们的各种疑问。”

学生评语（2021年）：“老师讲的很好，让我了解到一些以前接触较少得东西，十分有用，但是对于我这样代码基础较弱的来说还是有一定的挑战性。”

学生评语（2021年）： “老师注重启发学生思考，从不同的角度引导学生，培养学生的科研思维。由于老师非常负责对学生要求很高，期望也很高，对学生较为严厉，~~缺少对学生的鼓励~~，学生课业压力较大。” _{（注：根据此条建议，主动调高了亲和力属性值。）}

Discover The Syllabuse

发现课程

一、日程安排

日期	内容
12, Sep	▩ Ch0.《课程概论》 ▩ Ch1.《生物医药自然语言处理BioNLP的基本问题》 ▩ 课程大论文数据发布：作物文献/ 疾病文献(Cancer-Alterome，MaizeLitBase)
19, Sep	▩ 论文阅读. Xinzhi Yao, et. al. Cancer-Alterome: a literature-mined resource for regulatory events caused by genetic alterations in cancer. Scientific Data. 2024, 11:265. （论文Link） ▩ Ch2.《词汇计算基础》(Course Note)
25, Sep实验课	◎ 实验任务一、《基本词汇计算》论文提交日-1：_{请提供纸版论文，包含标题、主要研究设想}
26, Sep	▩ Ch3. 《NLTK文本预处理：分词、分句、词频、POS、近似词汇》 ▩ 专题1：《作物/疾病文献的知识挖掘目标》
10, Oct	▩ Ch4. 《PubMed科学文献中的基因、突变、药物、疾病等实体识别和Shell编程》
16, Oct 实验课	◎ 实验任务二、《PubMed文献实体识别》附加资料：《使用E-utilities从PubMed批量获取文献摘要》by 刘雅文论文提交日-2：_{请提供纸版论文，请增加实验设计部分}
30, Oct 实验课	◎ 实验任务三、《GO本体富集分析》（Slide）
31, Oct	▩ Ch5. 《本体和本体富集 ——基因本体GO, 人类表型本体HPO 和植物性状本体PTO》
7, Nov	▩ Ch6. 《依存关系和深层语义》
13, Nov 实验课	◎ 实验任务四、《依存关系和深层语义》论文提交日-3：_{请提供纸版论文，请增加实验结果和初步分析}
5, Dec	▩ Ch7. 《语义和嵌入计算》
12, Dec	▩ 《作物、疾病文献挖掘》课程论文工作汇报论文提交日-4：_{请提供纸版论文，请完成内容修缮}
18, Dec 实验课	◎ 随堂考查 ◎ 实验任务五、《语言大模型方案》
25, Dec	论文提交日-5：_{提交电子版供装订成册（可选/Optional）}

1766678340

days

hours minutes seconds

until

论文电子版(供装订)提交截止

Click here to check the full syllabus and course note page!

二、ITC实验安排

◎ 实验一 09/25/2024 （第三周）

名称	《基本词汇计算》
时长	3节课
学习目的	Linux终端操作
数据	PubMed文献数据, Brown语料库 (Download)
实现方式	Terminal终端
作业	• 基本要求： —复现Linux命令，计算给定数据的TTR，结果截图上交。 • 进阶要求（Optional）： —对文本进行截断，消除长度不一致带来的计算偏差。 —编写Shell脚本，对TTR计算进行自动化处理。 —对文本进行抽样，从统计角度进行假设检验设计。

◎ 实验二 10/16/2024（第六周）

名称	《PubMed文献实体识别》
时长	3节课
学习目的	Shell脚本抓取PubTator网页，对所抓取的海量文本的分析
数据	Shell编程，API抓取
实现方式	Terminal终端 + Jupyter
作业	• 基本要求： —复现Shell代码，获得目标文献pmid，获取部分PubTator标注文本，截图上交。 • 进阶要求（Optional）： —依据Jupyter代码部分的关键词分析代码，对PubTator文本进行初步筛选，对结果进行分析和解读。 —提出大模型方案。

◎ 实验三 10/30/2024（第八周）

名称	《GO本体富集分析》
时长	3节课
学习目的	一个具体的算法的调包实现
数据	自动下载的数据
实现方式	R Studio 或 Python
作业	• 基本要求： —复现R代码，获得富集分析结果，截图上交。 • 进阶要求（Optional）： —从前期文本挖掘实验中挑选若干基因，获得富集分析结果，对结果进行分析和解读。 —实现HPO富集的Python实现，参考GOATOOLS GitHub项目。 —提出大模型方案。

◎ 实验四 11/13/2024（第十周）

名称	《依存关系和深层语义》
时长	3节课
学习目的	计算句法依存树
数据	模拟段落
实现方式	Python
作业

◎ 实验五 11/18/2024（第十五周）

名称	《语言大模型方案》
时长	4节课
学习目的	用大模型方案尝试解决知识抽取和结论生成
数据	课程论文数据
实现方式	DeepSeek大模型
作业	实验结果截图上交 • 基本要求： —大模型基本解决方案。 • 进阶要求（Optional）： —深入分析。

三、课程大论文安排

名称	《作物/疾病文献挖掘和知识发现》
时长	整个学期
要求	• 课程大论文为必选项。
数据	• 使用指定数据，作物、疾病二选一； • (Cancer-Alterome，MaizeLitBase)
评价	• 明确、有意义的生物问题； • 准确的方法和清晰的结果； • 对结果展开有意义的分析。
论文格式	论文无特别格式要求。
提交时间	依时间点逐次提交，视为平时成绩。课程结束后一周内，可以提交额外的修订版。

四、课程考核

平时 60%
- 实验报告 20%
- 课程大论文 20%
- 课堂表现 20% (与课程大论文进度考察有关)
期末考试 40%

五、课程讨论进程

← Back

Thank you for your response. ✨

选课同学名单

Sep 2025, 课程作业数据发布

(Cancer-Alterome，MaizeLitBase)

Course Resources and External Links

课程资源和外部链接

六、推荐文献-课前阅读

☁ 1. 【了解近十年来BioNLP领域的前沿问题】Zhao, S., Su, C., Lu, Z., & Wang, F. (2021). Recent advances in biomedical literature mining. Briefings in Bioinformatics, 22(3), bbaa057. (论文链接)

☁ 2. 【了解一个文本/主题分类的场景】 Chen, Qingyu, et al. “Multi-label classification for biomedical literature: an overview of the BioCreative VII LitCovid Track for COVID-19 literature topic annotations.” Database 2022 (2022): baac069. (论文链接）

☁ 3. 【了解一个知名的生物医药专属的语料库资源】Kim, J. D., Ohta, T., & Tsujii, J. I. (2008). Corpus annotation for mining biomedical events from literature. BMC bioinformatics, 9(1), 1-25. (论文链接)

☁ 4.【了解一个本体资源与生物信息学知识发现的结合案例】Wang, S., Meng, X., Wang, Y., Liu, Y., & Xia, J. (2019). HPO-Shuffle: an associated gene prioritization strategy and its application in drug repurposing for the treatment of canine epilepsy. Bioscience reports, 39(9). (论文链接)

☁ 5. 【了解一个流行的全PubMed范围的生物医学知识标注资源】Wei, C. H., Allot, A., Leaman, R., & Lu, Z. (2019). PubTator central: automated concept annotation for biomedical full text articles. Nucleic acids research, 47(W1), W587-W593.（论文链接）

☁ 6.【了解斯坦福语法依存树结构】De Marneffe, M. C., & Manning, C. D. (2008). Stanford typed dependencies manual (pp. 338-345). Technical report, Stanford University.（文献链接）

☁ 7.【了解语言大模型给生物医药文本挖掘领域带来的机遇和挑战】. Tian, S., Jin, Q., Yeganova, L., Lai, P. T., Zhu, Q., Chen, X., … & Lu, Z. (2024). Opportunities and challenges for ChatGPT and large language models in biomedicine and health. Briefings in Bioinformatics, 25(1), bbad493. （文献链接）

External Links

☁ BioNLP and KD, 2024 Autumn. Link

☁ BioNLP and KD, 2023 Autumn. Link

☁ BioNLP and KD, 2023 Spring. Li n k

☁ BioNLP and KD, 2022 Spring. Li n k

☁ BioNLP and KD, 2021 Spring. Link

☁ BioNLP and KD, 2020 Spring. Link

☁ NLP for Undergraduate Student (大数据本科NLP课程), 2022 Autumn. Link.

☁ NLP for Undergraduate Student (大数据本科NLP课程), 2020 Autumn. Link.

所有课程

♥ 回到我的课程列表和逻辑关系图

Find us!

找到我们！

课后答疑

办公室：逸夫楼C610

Course for BioNLP

学科交叉，融会贯通，学好BioNLP.

Course Hours

See jw.hzau.edu.cn

Office

C610, Yifu bldg

Contact me

xiajingbo.math@gmail.com