Data Mining 2025 Spring

— A Course for Graduates in HZAU.

缘起:“这门课自2017年开始每年秋季开设,历年选课人数:17,36,36,68,67,67;自2024年起调整为春季讲授,当年选课人数19人。今年选课人数24人;授课地点一教304。”

问:“为什么在LLM时代仍然要学习算法理论,尤其是背后的数学原理?”

点击展开回答

在大模型时代,虽然深度学习等大规模模型取得了显著的成功,但学习算法理论和背后的数学原理仍然具有重要的价值。以下是一些原因:

  1. 理解模型的原理: 深刻理解算法理论和数学原理可以帮助你更好地理解模型的工作原理。这对于调试、优化和设计新模型都是至关重要的。
  2. 问题理解与定制模型: 对算法理论的深刻理解使你能够更好地理解不同问题的特性,并有能力为特定问题选择、设计和定制模型。
  3. 解释模型预测: 理解数学原理使你能够更好地解释模型的预测结果,推导模型对输入的敏感性,并提供对模型行为的洞察。
  4. 调参和优化: 对算法背后的数学原理有深刻理解的人更容易调整和优化模型,以提高性能、减少过拟合等。
  5. 处理非标准问题: 对算法理论和数学原理的了解使你能够更自如地处理非标准或特殊类型的问题,而不仅仅依赖于黑盒模型。
  6. 创新和研究: 在大规模模型之外的研究和创新通常需要对算法和数学的深入理解。新的理论和方法往往是由对基本原理的深刻理解产生的。
  7. 避免误用和陷阱: 对算法背后的原理的理解可以帮助你避免在使用模型时常见的误用和陷阱,确保模型的有效性和可解释性。
  8. 适应新技术: 深刻理解算法原理和数学基础使你更容易适应新的技术和方法。这种适应能力在快速发展的领域中尤为重要。

虽然大规模模型在许多任务上取得了惊人的成功,但对算法和数学原理的理解依然是从事机器学习和人工智能领域的从业者所需的核心能力之一。深入理解背后的原理可以使从业者在实际应用中更具有创造性和灵活性。


一、课程内容和周次安排

17, Feb
(Week 1)
课程概述与导论
—数据挖掘的概念、任务与应用
—数据挖掘与机器学习、统计学的关系
—数据挖掘流程
—Python/R 数据挖掘工具(pandas, scikit-learn)
—常见数据集介绍(UCI, Kaggle, OpenML

▩ 专题:《有关范数、凸、矩阵微分、和梯度计算》
21, Feb
(Week 1)
▩ 数据预处理Note 1
—数据清理(缺失值填充、异常值处理)
—数据变换(归一化、标准化、离散化)
—维度约简(PCA, LDA)

▩ 专题:《主成分分析》
24, Feb
(Week 2)
分类算法-1Note 2
—监督学习概述
—决策树(ID3, C4.5, CART)
—朴素贝叶斯分类
—K近邻(KNN)

专题:《ID3决策树和朴素贝叶斯》
28, Feb
(Week 2)
分类算法-2Note 3
—超平面
—支持向量机(SVM)
—神经网络基础(BP神经网络)
专题:《支持向量机》
3, Mar
(Week 3)
分类算法-3Note 4
—模型优化(正则化、超参数调优、特征选择)
专题:《特征工程》
7, Mar
(Week 3)
聚类Note 5
—无监督学习概述
—K-means 聚类
—层次聚类(AGNES, DIANA)
—高维数据聚类方法(降维 + 聚类)
—DBSCAN、Mean Shift

专题:《聚类标准》
10, Mar
(Week 4)
回归Note 6
—回归和分类的联系和区别
—线性回归

—Logistic回归
—非线性回归(支持向量回归)

专题:《Lasso回归》
14, Mar
(Week 4)
关联规则挖掘Note 7
—频繁模式挖掘(Apriori)
—FP-Growth 算法
—高级关联规则与闭合模式挖掘

专题:《关联分析与因果推断》(DAG with no tears)
17, Mar
(Week 5)
▩ 异常检测 (Note 8
—统计方法(Z-score, Grubbs’ Test)
—基于密度的方法(LOF)
—基于深度学习的异常检测(Autoencoder, GAN)

专题:案例
21, Mar
(Week 5)
维度约简与特征选择 (Note 9
线性降维(PCA, LDA)
—非线性降维(t-SNE, UMAP)
—特征选择方法-

题:《LDA》
24, Mar
(Week 6)
机器学习模型评估 (Note 10
—交叉验证与数据划分策略
—评估指标(F1-score, ROC曲线)
—过拟合与正则化

题:《正则化数学原理——最优性条件》
28, Mar
(Week 6)
▩ 时间序列数据挖掘 (Note 11
—时间序列数据的特点
—预测模型(ARIMA, LSTM)
—时间序列聚类

题:《ARIMA和LSTM》
31, Mar
(Week 7)
▩ 图数据挖掘 (Note 12
—PageRank 算法
—社区发现(Louvain算法)
—图神经网络(GNN)

—RESCAL算法
题:《案例——针对异质网络的联合分解计算实体嵌入》
7, Apr
(Week 8)
▩ 文本数据挖掘 (Note 13
—自然语言处理基础
—潜在语义分析(LSA)
—主题建模(LDA)
—词向量(Word2Vec, TF-IDF)
—基于深度学习的文本分类(BERT, Transformer)

题:《Fundamentals in Text Mining》
11, Apr
(Week 8)
▩ 数据挖掘应用案例-1 (Note 14
—推荐系统(协同过滤)
—电子商务与金融风控
—医疗健康大数据分析

题:《案例》
18, Apr
(Week 9)
▩  数据挖掘应用案例-2 (Note 15
▩ (Term Exam)

Note X Presentations (Link)

学生名单

王睿
江中源
杨文博
尚浩宇
刘志君
何艳红
马良泽
禹冰
李霄雯
李璐
李泽晨
李晓昱
彭星宇
何永福
黄王军
游天乐
杨永康
杜志力
崔迎杰
何放
陈付敏
吴浩淼
AL-OBAIDI FATIMAH SAMI
MUHAMMAD AHMAD JAVEED
KOFA JOHN NAGBE

Course Note Available upon Request:

Link to the request page.


二、考核方式:

平时成绩+期末考查

注1: 请查看课程周次安排,依据讲授内容挑选感兴趣的主题来准备你的Note。在下表的Presenter列中填入学生姓名,在Note Title列中填入笔记名称。
注2: 依据Note X的周次安排,学生对所准备内容进行讲解,讲解时长为5~7分钟。每节课的Presenter至多2人,Presentation时长总计5~10分钟为宜。
注3: 可以围绕讲授提纲进行概览性讲解,也可以针对若干兴趣点集中展开评点。
注4: 请在docs.qq.com创建你的Note文档,设置好“所有人可查看”的分享权限,并将文档链接填写在Note X Presentations (Link)在线文档的Link列中。
注5: 请保持Note的更新,在期末完成最终修订。
注6: 请在Note文档的标题栏下提供你的署名。请在文中给出恰当的参考资源链接。期末我们将把所有Note集结成册。

. /\_/\ .可选项

.( o.o ).期末可提交课程笔记

. > ^ < .期末可提交算法心得(仅限课程所讲授算法)


三、课堂进程:

课堂掠影,Feb,2025.


《主成分分析的文档资源对比》Feb,2025.


课堂掠影,Mar,2025.


《聚类算法》,Mar,2025.

  • 《K-Means代码与分析》作者-DeepSeek (Download)
  • 《层次聚类代码与分析》作者-DeepSeek (Download)
  • 聚类热图 (Data: Download)

《线性回归》,Mar,2025.

  • DeepSeek:《线性回归》(Download)
  • 讲义摘拍:《线性回归》(B站Link)

《关联分析》,Mar,2025.

  • DeepSeek and Zotero: 《Apriori算法》(Download)
  • DeepSeek and Zotero:《FP-Growth算法》(Download)

《因果发现》,Mar,2025.

  • Zheng, et al, 2018《DAG with no tears》(Link)
  • Luo, et al, 2020 《When causal inference meets deep learning》(Link

《线性判别分析LDA》,Mar,2025.

  • Zotero讲义 (Link
  • 若干推理过程

《正则化数学原理——最优化条件》,Mar,2025.

  • 讲义摘拍,B站视频. (Link)

《时间序列分析——ARIMA》,Mar,2025.

  • Zotero讲义 (Link

《图数据分析》,Mar,2025.

一个案例:针对异质网络的联合分解计算实体嵌入。

  • 论文: Kaiyin Zhou, et al. High-quality Gene/Disease Embedding in A Multi-relational Heterogeneous Graph After A Joint Matrix/tensor Decomposition. Journal of Biomedical Informatics. 2022, 126:103973. (Link
  • 讲解:B站视频 (Link


四、学生笔记

  • 学生Note集册 (File download)

五、教辅和课外资源

推荐教材:

  • 李航《统计学习方法》清华大学出版社
  • 陈宝林 《最优化理论与算法》清华大学出版社
  • 周志华《机器学习》清华大学出版社

课外参考材料:


课后答疑/Office Hour

地点:教师办公室 B417

时间:周一~周五 10:00-11:30 am

往年课程

2024 Spring course. Link

2022 Autumn course. Link

2021 Autumn course. Link

2020 Autumn course. Link

所有课程

回到 我的课程列表和逻辑关系图