— A Course for Graduates and Junior/Senior Undergraduates (本硕贯通课程-肆年。)
《生物文本挖掘和知识发现概论》(课程代码:317210004009) 自2016年起向研究生开设。2020年列入生物信息专业本科生培养方案,课程名为《自然语言处理与知识发现》(课程代码3173009011),建议先修课程包括《分子生物学》、《生物信息学导论》等。2021年,本课程被设置为本硕贯通课程。
因跟随生物信息专业2023年度的本科培养方案调整,自2023年起,授课学期更换为秋季。2024年,该门课程被列入人工智能专业培养方案,有志愿攻读生物信息、医疗信息方向硕士学位的同学可考虑选修。
今年选课的同学为生物信息2022级本科生21名,人工智能21级本科生6名一起张之洞和研究生院选课来源等,总计29位。
Apply the NLP ideas in Biomedicine Texts
欢迎选课
Welcome to the course: “BioNLP and Knowledge Discovery”
关键词
- PubMed文献中的基因、突变、疾病实体识别
- 基因本体、人类表型本体、和富集分析
- 疾病文献中的关键突变,及其下游分子功能
- 作物文献中的关键基因及其影响的表型
我为什么要选(不要选)这门课程?
学生评语(2023年秋):“非常奈斯的老师,课程很难但老师给的指导很充足,同时亲和度拉满能学到很多东西,提供的技术指导很实用,对背后原理也讲的很通俗”(注:此轮选课同学评论趋于温和。)
学生评语(2023年春):“老师的课程内容非常硬核,需要付出大量的精力才能完成,但是从中我获得了很多思维的启发,让我获得了初步的科研思维。提个小建议,在课程初期就要求完成短文,但在课程极后期才在课上讲解使用pubtator下载数据的方式,导致初期短文进度艰难,建议斟酌过程考核和课程安排,祝课程未来更好!”(注:根据此条建议,将《依存关系和深层语义》和《PubMed实体识别和Shell编程》进行了前后调换。)
学生评语(2023年春):“非常Push但是能够学到很多东西,收获远大于学习过程的艰难。”
学生评语(2023年春):“课上讲的部分东西对要写的大论文联系不够多,对代码的讲解较少,课程很难!”
学生评语(2022年):“课程节奏紧张,任务较难,但老师讲解十分耐心,积极回应积极帮助同学们的各种疑问。”
学生评语(2021年):“老师讲的很好,让我了解到一些以前接触较少得东西,十分有用,但是对于我这样代码基础较弱的来说还是有一定的挑战性。”
学生评语(2021年): “老师注重启发学生思考,从不同的角度引导学生,培养学生的科研思维。由于老师非常负责对学生要求很高,期望也很高,对学生较为严厉,缺少对学生的鼓励,学生课业压力较大。” (注:根据此条建议,主动调高了亲和力属性值。)
Discover The Syllabuse
发现课程
一、日程安排
| 日期 | 内容 |
| 3, Sep | ▩ Ch0.《课程概论》 ▩ Ch1.《生物医药自然语言处理BioNLP的基本问题》(Slides) ▩ 课程大论文数据发布:作物文献(~40k PubMed abs) / 疾病文献(Cancer-Alterome,Prostate Adenocarcinoma) |
| 10, Sep | ▩ 论文阅读. Xinzhi Yao, et. al. Cancer-Alterome: a literature-mined resource for regulatory events caused by genetic alterations in cancer. Scientific Data. 2024, 11:265. (论文Link) ▩ Ch2.《词汇计算基础》(Slides) |
| 24, Sep | ▩ Ch3. 《NLTK文本预处理:分词、分句、词频、POS、近似词汇》(Slides) ▩ 专题1:《作物/疾病文献的知识挖掘目标》 |
| 26, Sep 实验课 | ◎ 实验任务一、《基本词汇计算》 |
| 8, Oct | ▩ Ch4. 《PubMed科学文献中的基因、突变、药物、疾病等实体识别和Shell编程》 |
| 10, Oct 实验课 | ◎ 实验任务二、《PubMed文献实体识别》 附加资料:《使用E-utilities从PubMed批量获取文献摘要》by 刘雅文 |
| 15, Oct | ▩ Ch5. 《本体和本体富集 ——基因本体GO, 人类表型本体HPO 和植物性状本体PTO》 |
| 17, Oct 实验课 | (课程大论文短文提交日) ◎ Quiz A:算法理论考题 ◎ 实验任务三、《GO本体富集分析》 |
| 22, Oct | ▩ Ch6. 《依存关系和深层语义》(Slides) |
| 24, Oct 实验课 | (课程大论文长文初稿提交日) ◎ Quiz B:代码考核 ◎ 实验任务四、《依存关系和深层语义》 |
| 29, Oct | ▩ Ch7. 《语义和嵌入计算》 延伸了解:《Cancer-Alterome,深度模型和NLP方案》by 姚昕智 延伸了解:《大模型Prompt工程和RAG》by 何艳红&Javeed |
| 5, Nov | (课程大论文长文修订稿提交日) ▩ Quiz C:《作物、疾病文献挖掘》小组汇报 |
| 21, Nov 实验课 | ◎ 随堂考查 ◎ 实验任务五、《语言大模型方案》 |
| 28, Nov | (课程大论文最终稿提交日) 请将pdf文件提交到课程微信群 截止时间:11:59 pm, 28, Nov. |
days
hours minutes seconds
until
课程修订版(电子版)提交截止
二、ITC实验安排
◎ 实验一 09/26/2024 (第四周)
| 名称 | 《基本词汇计算》 |
| 时长 | 2节课 |
| 学习目的 | Linux终端操作 |
| 数据 | PubMed文献数据, Brown语料库 (Download) |
| 实现方式 | Terminal终端 |
| 作业 | • 基本要求: —复现Linux命令,计算给定数据的TTR,结果截图上交。 • 进阶要求(Optional): —对文本进行截断,消除长度不一致带来的计算偏差。 —编写Shell脚本,对TTR计算进行自动化处理。 —对文本进行抽样,从统计角度进行假设检验设计。 |
◎ 实验二 10/10/2024(第六周)
| 名称 | 《PubMed文献实体识别》 |
| 时长 | 2节课 |
| 学习目的 | Shell脚本抓取PubTator网页,对所抓取的海量文本的分析 |
| 数据 | Shell编程,API抓取 |
| 实现方式 | Terminal终端 + Jupyter |
| 作业 | • 基本要求: —复现Shell代码,获得目标文献pmid,获取部分PubTator标注文本,截图上交。 • 进阶要求(Optional): —依据Jupyter代码部分的关键词分析代码,对PubTator文本进行初步筛选,对结果进行分析和解读。 —提出大模型方案。 |
◎ 实验三 10/17/2024(第七周)
| 名称 | 《GO本体富集分析》 |
| 时长 | 4节课 |
| 学习目的 | 一个具体的算法的调包实现 |
| 数据 | 自动下载的数据 |
| 实现方式 | R Studio 或 Python |
| 作业 | • 基本要求: —复现R代码,获得富集分析结果,截图上交。 • 进阶要求(Optional): —从前期文本挖掘实验中挑选若干基因,获得富集分析结果,对结果进行分析和解读。 —实现HPO富集的Python实现,参考GOATOOLS GitHub项目。 —提出大模型方案。 |
◎ 实验四 10/24/2024(第八周)
| 名称 | 《依存关系和深层语义》 |
| 时长 | 4节课 |
| 学习目的 | 计算句法依存树 |
| 数据 | 模拟段落 |
| 实现方式 | Python |
| 作业 |
◎ 实验五 11/21/2024(第十一周)
| 名称 | 《语言大模型方案》 |
| 时长 | 4节课 |
| 学习目的 | 用大模型方案尝试解决知识抽取和结论生成 |
| 数据 | 课程论文数据 |
| 实现方式 | KIMI大模型 |
| 作业 | 实验结果截图上交 • 基本要求: —大模型基本解决方案。 • 进阶要求(Optional): —深入分析。 |
三、课程大论文安排
| 名称 | 《作物/疾病文献挖掘和知识发现》 |
| 时长 | 整个学期 |
| 要求 | • 课程大论文为必选项; • 自主挑选队员组队,每组3人; • 一位同学可以参加多组; • 组员名单和题目在每次论文提交点均可进行调整; • 组员排名不分先后,请在论文中清晰介绍各人分工和贡献。 |
| 数据 | • 使用指定数据,作物、疾病二选一; • 为保持平衡,若某数据的选题队伍超半数,该数据不可再选; |
| 评价 | • 明确、有意义的生物问题; • 准确的方法和清晰的结果; • 对结果展开有意义的分析。 |
| 论文格式 | 论文无特别格式要求。 |
| 提交时间 | 依时间点,逐次提交短文,长文初稿,修改稿,终稿。 |
四、课程考核
- 平时 60%
- 实验报告 20%
- 三次课堂测验 20% (与课程大论文进度考察有关)
- 课堂表现 20% (与课程大论文进度考察有关)
- 期末考试 40%
五、课程讨论进程
课程论文思路讨论 (Sep,2024)
课间讨论(Sep,2024)
课程论文短文摘要(Oct,2024)
课程论文短文评注(Oct,2024)
实验课一角(Oct,2024)
课程论文长文(初稿)评注(Oct,2024)
课程论文长文(修订稿)评注(Oct,2024)
Course Resources and External Links
课程资源和外部链接
六、推荐文献-课前阅读
☁ 1. 【了解近十年来BioNLP领域的前沿问题】Zhao, S., Su, C., Lu, Z., & Wang, F. (2021). Recent advances in biomedical literature mining. Briefings in Bioinformatics, 22(3), bbaa057. (论文链接)
☁ 2. 【了解一个文本/主题分类的场景】 Chen, Qingyu, et al. “Multi-label classification for biomedical literature: an overview of the BioCreative VII LitCovid Track for COVID-19 literature topic annotations.” Database 2022 (2022): baac069. (论文链接)
☁ 3. 【了解一个知名的生物医药专属的语料库资源】Kim, J. D., Ohta, T., & Tsujii, J. I. (2008). Corpus annotation for mining biomedical events from literature. BMC bioinformatics, 9(1), 1-25. (论文链接)
☁ 4.【了解一个本体资源与生物信息学知识发现的结合案例】Wang, S., Meng, X., Wang, Y., Liu, Y., & Xia, J. (2019). HPO-Shuffle: an associated gene prioritization strategy and its application in drug repurposing for the treatment of canine epilepsy. Bioscience reports, 39(9). (论文链接)
☁ 5. 【了解一个流行的全PubMed范围的生物医学知识标注资源】Wei, C. H., Allot, A., Leaman, R., & Lu, Z. (2019). PubTator central: automated concept annotation for biomedical full text articles. Nucleic acids research, 47(W1), W587-W593.(论文链接)
☁ 6.【了解斯坦福语法依存树结构】De Marneffe, M. C., & Manning, C. D. (2008). Stanford typed dependencies manual (pp. 338-345). Technical report, Stanford University.(文献链接)
☁ 7.【了解语言大模型给生物医药文本挖掘领域带来的机遇和挑战】. Tian, S., Jin, Q., Yeganova, L., Lai, P. T., Zhu, Q., Chen, X., … & Lu, Z. (2024). Opportunities and challenges for ChatGPT and large language models in biomedicine and health. Briefings in Bioinformatics, 25(1), bbad493. (文献链接)
External Links
☁ BioNLP and KD, 2023 Autumn. Link
☁ BioNLP and KD, 2023 Spring. Link
☁ BioNLP and KD, 2022 Spring. Link
☁ BioNLP and KD, 2021 Spring. Link
☁ BioNLP and KD, 2020 Spring. Link
☁ NLP for Undergraduate Student (大数据本科NLP课程), 2022 Autumn. Link.
☁ NLP for Undergraduate Student (大数据本科NLP课程), 2020 Autumn. Link.
所有课程
♥ 回到 我的课程列表和逻辑关系图


Find us!
找到我们!
课后答疑
办公室: 逸夫楼C610

助教:刘雅文
Course for BioNLP
学科交叉,融会贯通,学好BioNLP.
Course Hours
See jw.hzau.edu.cn
Office
C610, Yifu bldg
Contact me
xiajingbo.math@gmail.com














































