— A course getting started in the fall of 2020.



一、日程安排
日期 | 内容 |
Oct, 11 | ▩ Ch0.《课程概论》 ▩ Ch1.《语言学和自然语言处理的基本问题》 |
Oct, 18 | ▩ Ch2.《词汇计算基础》(文本材料:《哈利波特与魔法石》) ▩ 专题1:《词汇计算和文本(情感/主题/风格)分类》 |
Oct, 25 | ▩ Ch3.《朴素贝叶斯分类算法》 |
Oct, 28 | ▩ Ch4. 《潜在语义分析:文本数据稀疏性处理》 |
Nov, 1 | ▩ Quiz A:算法理论考题 ▩ Ch4. 《潜在语义分析:文本数据稀疏性处理》 ▩ Ch5.《语法和依存关系》(移步实验课环节) |
Nov, 4 | ▩ 《NLP从入门到进阶——分水岭》 ▩ Ch6.《熵和统计学基础》 |
Nov, 8 | ▩ Ch6.《熵和统计学基础》 |
Nov, 11 | ▩ Ch7.《统计NLP——“判别”模型:最大熵ME模型和文本分类》 |
Nov, 22 | ▩ Quiz B:《哈利波特和魔法石的文本挖掘和知识发现》小组汇报 ▩ 专题2:《ME语言模型下的文本分类模型和代码》 |
Nov, 25 | ▩ Ch8. 《NLTK文本预处理:分词、分句、词频、POS、近似词汇》 ▩ Ch9. 《统计NLP——“序列标注”模型:POS和隐马尔可夫HMM算法》 |
Nov, 29 | ▩ Ch9. 《统计NLP——“序列标注”模型:POS和隐马尔可夫HMM算法》 ▩ 专题3:《HMM序列标注及其在POS Tagging上的算法内核》 |
Dec, 6 | ▩ Ch10. 《统计NLP——“序列标注”模型:NER和条件随机场CRF算法模型》 ▩ 专题4:《CRF序列标注及其在实体识别(NER)上的算法内核》 |
Dec, 9 | ▩ Ch11.《LDA主题模型》(略讲) ▩ Ch12.《神经网络在NLP问题上的实现方案》 ▩ 专题5:《RNN、序列标注的算法模型,及LSTM代码实例》(搭配当晚实验课) |
Dec, 13 | ▩ Quiz C:算法理论考题,课程大论文——小组选讲 ▩ 专题6:《RNN和文本生成的算法实例》 |
Dec, 16 | ▩ Ch13. 《语义和嵌入计算》 ▩ 专题7:《BERT深度语义表示和情感分类》 |
Dec, 20 | ▩ 随堂考查 ▩ 专题8:《表示学习框架下的图神经网络和知识图谱》 |
二、推荐课程视频和资源
♥ 中科院 宗成庆 自然语言处理公开课, 视频链接, 课程网站链接
♥ 斯坦福 Stanford CS 224N | Natural Language Processing with Deep Learning, 课程链接
♥ R. Clinger & K. Tomanek, Tutorial of CRF. Download:32pp.
三、本地课程资源
♥ TF-IDF实验课 基准教学代码
♥ ME文本分类 基准教学代码
♥ Stanford依存树和SDP 基准教学代码
♥ RNN和序列标注的算法模型和LSTM代码实例 基准教学代码
♥ 实验报告书(一、《文本词汇复杂度分析》)(二、《TFIDF计算》)(三、《依存树和最短路径分析》)(四、《基于LSTM的词性标注》)(五、《基于Torch的Word2Vec嵌入计算》)
♥ 《熵和统计学基础–CourseNote》(28页, 10.5Mb).
♥ 《统计NLP——“判别”模型:最大熵ME模型和文本分类–Slides》 (pp31, 3.3Mb)
♥ 《HMM序列标注及其在POS Tagging上的算法内核–CourseNote》(pp12, 3.4Mb)
♥ Request the full Course note.
.
.
.
四、课程讨论进程
♥《文本主题聚类方案和伪代码》 2022/10/18
♥ 《TFIDF实验部分答案-汪杰琳供图》2022/11/04
♥ 《主题分类模型中引入互信息后进行词汇计算的实验方案》2022/11/08
♥ 《RNN、序列标注的算法模型,及LSTM代码实例》部分Slides 2022/12/09
♥ 《Word2Vec代码改写:Softmax和T-SNE》汪杰琳答案 2022/12/23
♥ 课堂掠影
五、课程大作业选题
♥ 数据:《哈利波特和魔法石》(Download)
♥ 要求:请使用课堂所讲授内容,对指定文本进行挖掘和知识发现,形成课程论文。
♥ 自愿完成。
♥ 提交时间:12月23日。(纸质版)
♥ 建议使用的分析方法包括:话题聚类,话题分类。
课后答疑 联络我们
教师办公室: C610