Data Mining Course Note

Course Note Available upon Request:

Fill in the below form to get a copy of the latest course note.


起手编写这个 Course Note 是 2020 年的暑期——此时这门课程已经开设三轮,讲授的内容和顺序 大体稳定下来,所以为方便教学计,便准备了这个 Course Note。不同于我另外一门研究生课程《生物文 本挖掘与知识发现概论》,这门课程的 Course Note 准备得较为梗概,大部分章节虽援引了我 Slides 中 的讲授内容,少数章节只给了讲解思路和参考来源。譬如,在讲解最优化算法部分时,我挑选了陈宝林《最优化算法》的第一章和第七章,在讲解 SVM 时主要依赖黑板推演。既然很多章节所参考的内容都可 以找到较为完整的参考源,学生们只需要按图索骥找到相关教材即可。

Course Note 中的很多经典内容得益于十多年前在数学系石峰老师组织的讨论班里的算法讨论,一 些年代较新的内容则来自近几年来在我的讨论班里面对研究生同学的讲解和讨论。秦璇、周开银、王宇 星、Mina Gachloo、章胜、罗棋等参与了很多张量分解有关的讨论,卢攀忠、丁可等同学参与了不少与 神经网络有关的讨论,周开银和马骁航在隐变量和贝叶斯推断的很多讨论中十分活跃,姚昕智在变分自 编码机 VAE 的算法讨论和代码实现中的很多讨论都很有趣。还有很多旁听的同学,他们的名字我就不 一一列举了。很显然这个 Course Note 是在诸多研讨过程中“东拼西凑”的这么一个读本,整理它的主要目的是 沿着一条主线梳理相关概念、公式、结论、代码,以方便当今教学之用,也就没有学术出版的意图。出 于对知识产权的保护和尊重,我尽可能地在使用资源的时候附以链接,但不排除匆忙之中有所遗漏,在 此为可能的漏引对原作者表示歉意。在仅为教学和自学的目的下,欢迎选课的同学们持有这份电子材料。(2020年10月29日)


2021年课程开课在即,利用中秋节的机会,把近一年来积累的讲义修订内容更新在这个Course Note里面,主要涉及的部分是EM算法、VAE变分自编码机等部分。由于最近研究中用到随机变分推断,因此对SVI有一些关注,包括其在VAE和LDA的应用,这些内容也都更新在当前这个版本中了。平日的算法讨论较为匆忙,并没有用Tex把它们一一进行整理,所以增添的资料中多有研究生们的电子笔记摘要。欧阳思卓和彭钱钱常在每次讨论后整理笔记,字迹也较为优美工整,所以征得同意后,我就欣然间将他们的一些电子笔记截取下来放在这个Course Note中了。

选课的同学多已了解我近几年的讲授习惯——偶数年份以黑板推导为主,速缓且细节均至;奇数年份以Slides演示为主,速快且覆盖面广。考虑到这门课程拟覆盖的广度和深度,这个做法有它相得益彰的妙处,因此,也常有同学头年选课后翌年再旁听,希望能咀嚼出更多趣味来。这部分同学可以通过对比前后的Course Note,了解到课程内容的一些细节及其变化。 当然,这份资料的假想读者最主要的还是当年选课的同学。基本上Course Note的内容与课堂Slides的内容是保持一致的,因此它能成为一个索引,帮助大家按图索骥,在自学和回顾时找到对应的资料。同时,Course Note也能帮助读者们较为直观地形成对《数据挖掘》这个课程体系的整体理解。考虑到这门课程在讲授重点中对数学原理的倾斜,数据清洗和算法的代码实现等内容鲜少谈及,同时内容的摘选也时常紧跟我自己的研究兴趣。因此,多参考和自学第二章中推荐的经典教材,显然是一个更好的做法,从而全面理解《数据挖掘》这个研究方向。如同去年序言中所述,这不是一个待出版的材料,错漏也在所难免,请大家对它的不完美予以包涵。若发现需要订正的地方,敬请及时提出。在仅为教学和自学的目的下,欢迎选课的同学们持有这份电子材料。(2021年9月18


%d bloggers like this: