《自然语言处理与知识发现》 Course Note

—A course gets started in the fall of 2020.

Discover The Syllabus


Contents

  • □ 《课程概貌》
  • □ 《词汇计算基础》主要介绍语料库、Linux 终端命令、正则表达式、和分词技术。
  • □ 《从奇异值分解到潜在语义分析》主要介绍 SVD 和 LSA。
  • □ 《依存树和最短依存距离计算》开始涉及到实体间的语法关系,便于做更精准的关系抽取。继续相应上述实验的一些方法进阶的要求。
  • □ 《熵和统计学基础》
  • □ 《序列标注方法 HMM 和 CRF》
  • □ 《LDA 主题建模,从 LDA 到 Gibbs 抽样》
  • □ 《词表示和词嵌入》介绍实体的向量化,以及有监督下的实体识别技术。
  • □ 《图嵌入和知识图谱及其在生物医药领域的应用》

Sample Chapter

Chapter 6
Chapter 9
Chapter 14

Request the Course Note.


这门课程叫做《自然语言处理与知识发现》,主要的听众是华中农业大学信息学院的本科生。主要介绍自然语言处 理 (Natural Language Processing, NLP) 中的一般性方法、理论和手段(譬如句法树、潜在语义分析、主题建模、词嵌 入、图嵌入和知识图谱推理)。

诸位拿在手上的这份资料在 2022 年 5 月份开始起草,内容主要整理自 2020 年面向大数据 2018 级的两个班同学 实施讲授时所编写的教学讲义。Course Note 中的部分内容自 2016 年开始讲授研究生课程《生物文本挖掘与自然语言 处理》以来便有准备——那门课包含了生物文本处理的一些特色部分,譬如各类生物学本体,本体富集,生物文本资 源和实体识别等等。在准备大数据本科同学的课程资料时,则去掉了生物文本的这些特色部分,而主要凸显了 NLP 这 条理论和方法的主线。

需要特别说明的一点是,这本 Course Note 的内容安排并不是围绕当前流行的神经网络 NLP 实现方案而展开的, 而是意图达成一条兼具传统和现代的脉络,起于传统统计自然语言、糅合统计学习算法思路、再进展到现代的神经网 络解决方案。要请学生们在 32 个理论课时里达成从传统到现代方法的系统理解,还是有一定课时困难的,用讲义形式 引导学习会有帮助——这也是编纂 Course Note 的初衷所在。

由于原始教学材料是用英文准备的,而且这门课程也并不排斥双语教学的计划,再一并考虑到近几年我观察到不 同算法课堂的研究生和高年级本科生对“英文讲义/中文讲授”的教学方式尚无实际困难,我就继续沿用了当前以英文 为主的模式,在少量地方用中文做了注释。

这显然是一份正处于完善之中的资料,纰漏在所难免,请尽力指出,方便进行修订,当然也欢迎大家持有该资料 并用于课堂学习和讨论。

本资料无意用于学术发表或商业出版,仅为教学研讨使用。借用的图片、文字和代码资料,基本都给出了引用来 源,但因时间仓促,不排除不慎漏引的可能。有少量学生习作比较适宜作为补充材料的,征得同意后也放入了相关章 节并保证了署名和内容完整性。总之,对所引用资源的原作者们表示感谢。

The course note for NLP and KD (Latest version: May, 2022) is available under request, please fill in the form below. In addition, if you have any problem with the course, feel free to fill in the form and send it to me.


Course for NLP

加强理论修为,培养实践能力

Course Hours

See jw.hzau.edu.cn

Office

C610, Yifu bldg

Contact me

xiajingbo.math@gmail.com

%d bloggers like this: