BioNLP and Knowledge Discovery, 2023 Spring

— A Course for Graduates and Junior/Senior Undergraduates (本硕贯通课程-叁年。)

(从2021年起,面向生物信息本科专业的《自然语言处理与知识发现》与面向全校研究生共选的《生物文本挖掘和知识发现概论》连通为本硕贯通课程。今年选课的同学为本科生44名,以生物信息20级大三年级同学为主。)


Apply the NLP ideas in Biomedicine Texts

欢迎选课


Welcome to the course: “BioNLP and Knowledge Discovery”

这门课程源于2016年起开设的研究生《生物文本挖掘与知识发现概论》,每年春季授课。2020年对生物信息专业本科生增开。2021年起,作为本硕贯通课程开设。课程大纲和课程相关资源请在本页获取。

我为什么要选(不要选)这门课程?

学生评语(2021年): “老师注重启发学生思考,从不同的角度引导学生,培养学生的科研思维。由于老师非常负责对学生要求很高,期望也很高,对学生较为严厉,缺少对学生的鼓励,学生课业压力较大。

学生评语(2021年):“老师讲的很好,让我了解到一些以前接触较少得东西,十分有用,但是对于我这样代码基础较弱的来说还是有一定的挑战性。

学生评语(2022年):“课程节奏紧张,任务较,但老师讲解十分耐心,积极回应积极帮助同学们的各种疑问。


Discover The Syllabuse

发现课程


一、日程安排

日期内容
14, Feb▩ Ch0.《课程概论》
▩ Ch1.《生物医药自然语言处理BioNLP的基本问题》(Slides)
▩ 课程大论文数据发布:作物文献(110k abs) / 疾病文献(2.7G)
21, Feb▩ Ch2.《词汇计算基础》(Slides)
28, Feb▩ Ch3. 《NLTK文本预处理:分词、分句、词频、POS、近似词汇》(Slides)
专题1:《作物/疾病文献的知识挖掘目标》
3, Mar
实验课
◎ 实验任务一、《基本词汇计算》
7, Mar▩ Ch4. 《本体和本体富集 (GO, HPO 和PTO)》(Slides
10, Mar
实验课
◎ 实验任务二、《词云计算》
14, Mar▩ Ch5.《依存关系和深层语义》(Slides
17, Mar
实验课
(课程大论文短文提交日)
Quiz A:算法理论考题
◎ 实验任务三、《本体富集分析》
专题2:《作物/疾病文献的词汇分析》
21, Mar▩ Ch6.《PubMed实体识别和Shell编程》(Slides
24, Mar
实验课
(课程大论文长文初稿提交日)
Quiz B:代码考核 +《作物、疾病文献挖掘》小组汇报
—施沛廷,夏墨晗,张英豪《基于依存关系的新冠文本知识挖掘》(串场:张家赫)
—韩俊敏,延思怡,钟如珺《基于PubMed水稻文献信息挖掘基因-抗性关系》(串场:XXX)
◎ 实验任务四、《PubMed文献实体识别》
28, Mar▩ Ch7. 《语义和嵌入计算》
4, Apr(课程大论文长文修订稿提交日)
Quiz C:《作物、疾病文献挖掘》小组汇报
专题3:《生物文本挖掘和知识图谱》
7, Apr
实验课
随堂考查
◎ 实验任务五、《Word2Vec语义嵌入》

二、ITC实验安排

◎ 实验一 03/03/2023 (第三周)

名称《基本词汇计算》(Slides)
时长2节课
学习目的Linux终端操作
数据PubMed文献数据, Brown语料库 (Download)
实现方式Terminal终端
作业基本要求:
—复现Linux命令,计算给定数据的TTR,结果截图上交。
进阶要求(Optional):
—对文本进行截断,消除长度不一致带来的计算偏差。
—编写Shell脚本,对TTR计算进行自动化处理。
—对文本进行抽样,从统计角度进行假设检验设计。

◎ 实验二 03/10/2023(第四周)

名称《词云计算》
时长2节课
学习目的R调包
数据PubMed文献数据
实现方式Python
作业实验材料:作物文献(110k abs) / 疾病文献(2.7G)
基本要求:
—复现Python命令,绘制词云图,截图上交
进阶要求(Optional):
—词云图能体现热点词汇/研究趋势。

◎ 实验三 03/17/2023(第五周)

名称《本体富集分析》
时长4节课
学习目的一个具体的算法的调包实现
数据自动下载的数据
实现方式R Studio
作业基本要求:
—复现R代码,获得富集分析结果,截图上交
进阶要求(Optional):
—从前期文本挖掘实验中挑选若干基因,获得富集分析结果,对结果进行分析和解读

◎ 实验四 03/24/2023(第六周)

名称《PubMed文献实体识别》
时长4节课
学习目的Shell脚本抓取PubTator网页,对所抓取的海量文本的分析
数据Shell编程,API抓取
实现方式Terminal终端 + Jupyter
作业基本要求:
—复现Shell代码,获得目标文献pmid,获取部分PubTator标注文本,截图上交。
进阶要求(Optional):
—依据Jupyter代码部分的关键词分析代码,对PubTator文本进行初步筛选,对结果进行分析和解读

◎ 实验五 04/07/2023(第八周)

名称《Word2Vec语义嵌入》
时长4节课
学习目的Python下神经网络搭建和Word2Vec嵌入计算
数据PubMed文献语料
实现方式Python
作业截图上交

三、课程大论文安排

名称《作物/疾病文献挖掘和知识发现》
时长整个学期
要求 课程大论文有一定挑战,为可选项,非必选项;
自愿组队完成,每组3人;
一位同学可以参加多组;
组员名单题目在每次论文提交点均可进行调整
组员排名不分先后,请在论文中清晰介绍各人分工和贡献。
数据使用指定数据:作物文献(110k abs), 或 疾病文献(2.7G) 。
论文格式论文无特别格式要求。
提交时间依时间点,逐次提交短文,长文初稿,修改稿,终稿。

四、课程考核

  1. 平时 60%
    • 实验报告 20%
    • 三次课堂测验 20%
    • 课堂表现 20% (其中,课程大论文为可选项)
  2. 期末考试 40%

五、课程讨论进程

 TTR文本复杂度分析的策略讨论-02/21/2022

 《作物-疾病文献挖掘的“破题/立论和实施”》讨论-02/28/2022

 实验集萃-03/03/2023:张英豪–《自动化计算文本文件TTR的Bash脚本

 《短文题目和实施计划》讨论-03/07/2023

 《短文题目和摘要》-03/17/2023

 课堂掠影





六、推荐文献-课前阅读

☁ 1. 【了解近十年来BioNLP领域的前沿问题】Zhao, S., Su, C., Lu, Z., & Wang, F. (2021). Recent advances in biomedical literature mining. Briefings in Bioinformatics22(3), bbaa057. (论文链接)

☁ 2. 【了解一个知名的生物医药专属的语料库资源】Kim, J. D., Ohta, T., & Tsujii, J. I. (2008). Corpus annotation for mining biomedical events from literature. BMC bioinformatics9(1), 1-25. (论文链接)

☁ 3.【了解一个本体资源与生物信息学知识发现的结合案例】Wang, S., Meng, X., Wang, Y., Liu, Y., & Xia, J. (2019). HPO-Shuffle: an associated gene prioritization strategy and its application in drug repurposing for the treatment of canine epilepsy. Bioscience reports39(9). (论文链接)

☁ 4. 【了解一个流行的全PubMed范围的生物医学知识标注资源】Wei, C. H., Allot, A., Leaman, R., & Lu, Z. (2019). PubTator central: automated concept annotation for biomedical full text articles. Nucleic acids research47(W1), W587-W593.(论文链接

☁ 5.【了解斯坦福语法依存树结构】De Marneffe, M. C., & Manning, C. D. (2008). Stanford typed dependencies manual (pp. 338-345). Technical report, Stanford University.(文献链接


☁ BioNLP and KD, 2022 Spring. Link

☁ BioNLP and KD, 2021 Spring. Link

☁ BioNLP and KD, 2020 Spring. Link

☁  NLP for Undergraduate Student (大数据本科NLP课程), 2022 Autumn. Link.

☁  NLP for Undergraduate Student (大数据本科NLP课程), 2020 Autumn. Link.

所有课程

回到 我的课程列表和逻辑关系图



课后答疑

办公室: 逸夫楼C610

贺芷涵

助教:贺芷涵


Course for BioNLP

学科交叉,融会贯通,学好BioNLP.

Course Hours

See jw.hzau.edu.cn

Office

C610, Yifu bldg

Contact me

xiajingbo.math@gmail.com


%d bloggers like this: