《自然语言处理与知识发现》2022秋

— A course getting started in the fall of 2020.

一、日程安排

日期内容
Oct, 11▩ Ch0.《课程概论》
▩ Ch1.《语言学和自然语言处理的基本问题》
Oct, 18▩ Ch2.《词汇计算基础》(文本材料:《哈利波特与魔法石》)
专题1:《词汇计算和文本(情感/主题/风格)分类》
Oct, 25▩ Ch3.《朴素贝叶斯分类算法》
Oct, 28▩ Ch4. 《潜在语义分析:文本数据稀疏性处理》
Nov, 1Quiz A:算法理论考题
▩ Ch4. 《潜在语义分析:文本数据稀疏性处理》
▩ Ch5.《语法和依存关系》(移步实验课环节)
Nov, 4▩ 《NLP从入门到进阶——分水岭》
▩ Ch6.《熵和统计学基础》
Nov, 8▩ Ch6.《熵和统计学基础》
Nov, 11▩ Ch7.《统计NLP——“判别”模型:最大熵ME模型和文本分类》
Nov, 22Quiz B:《哈利波特和魔法石的文本挖掘和知识发现》小组汇报
专题2:《ME语言模型下的文本分类模型和代码》
Nov, 25▩ Ch8. 《NLTK文本预处理:分词、分句、词频、POS、近似词汇》
▩ Ch9. 《统计NLP——“序列标注”模型:POS和隐马尔可夫HMM算法》
Nov, 29▩ Ch9. 《统计NLP——“序列标注”模型:POS和隐马尔可夫HMM算法》
专题3:《HMM序列标注及其在POS Tagging上的算法内核》
Dec, 6▩ Ch10. 《统计NLP——“序列标注”模型:NER和条件随机场CRF算法模型》
专题4:《CRF序列标注及其在实体识别(NER)上的算法内核》
Dec, 9▩ Ch11.《LDA主题模型》(略讲)
▩ Ch12.《神经网络在NLP问题上的实现方案》
专题5:《RNN、序列标注的算法模型,及LSTM代码实例》(搭配当晚实验课)
Dec, 13Quiz C:算法理论考题,课程大论文——小组选讲
专题6:《RNN和文本生成的算法实例》
Dec, 16▩ Ch13. 《语义和嵌入计算》
专题7:《BERT深度语义表示和情感分类》
Dec, 20随堂考查
专题8:《表示学习框架下的图神经网络和知识图谱》


二、推荐课程视频和资源

中科院 宗成庆 自然语言处理公开课, 视频链接课程网站链接

斯坦福 Stanford CS 224N | Natural Language Processing with Deep Learning, 课程链接

R. Clinger & K. Tomanek, Tutorial of CRF. Download:32pp.


三、本地课程资源

TF-IDF实验课 基准教学代码

ME文本分类 基准教学代码

Stanford依存树和SDP 基准教学代码

RNN和序列标注的算法模型和LSTM代码实例 基准教学代码

实验报告书(一、《文本词汇复杂度分析》)(二、《TFIDF计算》)(三、《依存树和最短路径分析》)(四、《基于LSTM的词性标注》)(五、《基于Torch的Word2Vec嵌入计算》)

《熵和统计学基础–CourseNote》(28页, 10.5Mb).

《统计NLP——“判别”模型:最大熵ME模型和文本分类–Slides》 (pp31, 3.3Mb)

《HMM序列标注及其在POS Tagging上的算法内核–CourseNote》(pp12, 3.4Mb)

Request the full Course note.


.

.

.

四、课程讨论进程

《文本主题聚类方案和伪代码》 2022/10/18

《TFIDF实验部分答案-汪杰琳供图》2022/11/04

《主题分类模型中引入互信息后进行词汇计算的实验方案》2022/11/08

《RNN、序列标注的算法模型,及LSTM代码实例》部分Slides 2022/12/09

《Word2Vec代码改写:Softmax和T-SNE》汪杰琳答案 2022/12/23

课堂掠影

五、课程大作业选题

数据:《哈利波特和魔法石》(Download)

要求:请使用课堂所讲授内容,对指定文本进行挖掘和知识发现,形成课程论文。

自愿完成。

提交时间:12月23日。(纸质版)

建议使用的分析方法包括:话题聚类,话题分类。

六、历年课程

《自然语言与知识发现》2021秋 Link

《自然语言与知识发现》2020秋 Link

所有课程

回到 我的课程列表和逻辑关系图


课后答疑 联络我们

教师办公室: C610

%d bloggers like this: