—A course gets started in the fall of 2020.
Discover The Syllabus
Contents
- □ 《课程概貌》
- □ 《词汇计算基础》主要介绍语料库、Linux 终端命令、正则表达式、和分词技术。
- □ 《从奇异值分解到潜在语义分析》主要介绍 SVD 和 LSA。
- □ 《依存树和最短依存距离计算》开始涉及到实体间的语法关系,便于做更精准的关系抽取。继续相应上述实验的一些方法进阶的要求。
- □ 《熵和统计学基础》
- □ 《序列标注方法 HMM 和 CRF》
- □ 《LDA 主题建模,从 LDA 到 Gibbs 抽样》
- □ 《词表示和词嵌入》介绍实体的向量化,以及有监督下的实体识别技术。
- □ 《图嵌入和知识图谱及其在生物医药领域的应用》
Sample Chapter
Chapter 6

Chapter 9

Chapter 14

Request the Course Note.
这门课程叫做《自然语言处理与知识发现》,主要的听众是华中农业大学信息学院的本科生。主要介绍自然语言处 理 (Natural Language Processing, NLP) 中的一般性方法、理论和手段(譬如句法树、潜在语义分析、主题建模、词嵌 入、图嵌入和知识图谱推理)。
诸位拿在手上的这份资料在 2022 年 5 月份开始起草,内容主要整理自 2020 年面向大数据 2018 级的两个班同学 实施讲授时所编写的教学讲义。Course Note 中的部分内容自 2016 年开始讲授研究生课程《生物文本挖掘与自然语言 处理》以来便有准备——那门课包含了生物文本处理的一些特色部分,譬如各类生物学本体,本体富集,生物文本资 源和实体识别等等。在准备大数据本科同学的课程资料时,则去掉了生物文本的这些特色部分,而主要凸显了 NLP 这 条理论和方法的主线。
需要特别说明的一点是,这本 Course Note 的内容安排并不是围绕当前流行的神经网络 NLP 实现方案而展开的, 而是意图达成一条兼具传统和现代的脉络,起于传统统计自然语言、糅合统计学习算法思路、再进展到现代的神经网 络解决方案。要请学生们在 32 个理论课时里达成从传统到现代方法的系统理解,还是有一定课时困难的,用讲义形式 引导学习会有帮助——这也是编纂 Course Note 的初衷所在。
由于原始教学材料是用英文准备的,而且这门课程也并不排斥双语教学的计划,再一并考虑到近几年我观察到不 同算法课堂的研究生和高年级本科生对“英文讲义/中文讲授”的教学方式尚无实际困难,我就继续沿用了当前以英文 为主的模式,在少量地方用中文做了注释。
这显然是一份正处于完善之中的资料,纰漏在所难免,请尽力指出,方便进行修订,当然也欢迎大家持有该资料 并用于课堂学习和讨论。
本资料无意用于学术发表或商业出版,仅为教学研讨使用。借用的图片、文字和代码资料,基本都给出了引用来 源,但因时间仓促,不排除不慎漏引的可能。有少量学生习作比较适宜作为补充材料的,征得同意后也放入了相关章 节并保证了署名和内容完整性。总之,对所引用资源的原作者们表示感谢。
Course for NLP
加强理论修为,培养实践能力
Course Hours
See jw.hzau.edu.cn
Office
C610, Yifu bldg
Contact me
xiajingbo.math@gmail.com