Data Mining 2026 Spring

— A Course for Graduates in HZAU.

_{缘起：“这门课自2017年开始每年秋季开设，历年选课人数：17，36，36，68，67，67；自2024年起调整为春季讲授，历年选课人数：19，24；今年授课49人，授课地点三教C403。”}

_{问：“为什么在LLM时代仍然要学习算法理论，尤其是背后的数学原理？”}

点击展开回答

在大模型时代，虽然深度学习等大规模模型取得了显著的成功，但学习算法理论和背后的数学原理仍然具有重要的价值。以下是一些原因：

理解模型的原理： 深刻理解算法理论和数学原理可以帮助你更好地理解模型的工作原理。这对于调试、优化和设计新模型都是至关重要的。
问题理解与定制模型： 对算法理论的深刻理解使你能够更好地理解不同问题的特性，并有能力为特定问题选择、设计和定制模型。
解释模型预测： 理解数学原理使你能够更好地解释模型的预测结果，推导模型对输入的敏感性，并提供对模型行为的洞察。
调参和优化： 对算法背后的数学原理有深刻理解的人更容易调整和优化模型，以提高性能、减少过拟合等。
处理非标准问题： 对算法理论和数学原理的了解使你能够更自如地处理非标准或特殊类型的问题，而不仅仅依赖于黑盒模型。
创新和研究： 在大规模模型之外的研究和创新通常需要对算法和数学的深入理解。新的理论和方法往往是由对基本原理的深刻理解产生的。
避免误用和陷阱： 对算法背后的原理的理解可以帮助你避免在使用模型时常见的误用和陷阱，确保模型的有效性和可解释性。
适应新技术： 深刻理解算法原理和数学基础使你更容易适应新的技术和方法。这种适应能力在快速发展的领域中尤为重要。

虽然大规模模型在许多任务上取得了惊人的成功，但对算法和数学原理的理解依然是从事机器学习和人工智能领域的从业者所需的核心能力之一。深入理解背后的原理可以使从业者在实际应用中更具有创造性和灵活性。

一、课程内容和周次安排

2, Mar (Week 1)	▩ 课程概述与导论 —数据挖掘的概念、任务与应用 —数据挖掘与机器学习、统计学的关系 —数据挖掘流程 —Python/R 数据挖掘工具（pandas, scikit-learn） —常见数据集介绍（UCI, Kaggle, OpenML ▩ 专题：《有关范数、凸、矩阵微分、和梯度计算——从R^n数据的分类开始谈起》
6, Mar (Week 1)	▩ 数据预处理（Note 1） —数据清理（缺失值填充、异常值处理） —数据变换（归一化、标准化、离散化） —维度约简（PCA, LDA） ▩ 专题：《主成分分析——一个完整阐述的最优化模型》(Slides)
9, Mar (Week 2)	▩ 分类算法-1 （Note 2） —监督学习概述 —决策树（ID3, C4.5, CART） —朴素贝叶斯分类 —K近邻（KNN） ▩ 专题：《朴素贝叶斯——一个完整阐述的机器学习算法》
13, Mar (Week 2)	▩ 分类算法-2 （Note 3） —超平面 —支持向量机（SVM） —神经网络基础（BP神经网络） ▩ 专题：《支持向量机——从第一次的LLM交互到今天的认识提高》(Note by LLM (v1), v2)
16, Mar (Week 3)	▩ 分类算法-3 （Note 4） —模型优化（正则化、超参数调优、特征选择） ▩ 专题：《正则化》
20, Mar (Week 3)	▩ 聚类（Note 5） —无监督学习概述 —K-means 聚类 —层次聚类（AGNES, DIANA） —高维数据聚类方法（降维 + 聚类） —DBSCAN、Mean Shift ▩ 专题：黑板推演《软聚类——隐变量模型GMM与其EM方法求解》(Note)
23, Mar (Week 4)	▩ 回归（Note 6） —回归和分类的联系和区别 —线性回归 —Logistic回归 —非线性回归（支持向量回归） ▩ 专题：黑板推演《Lasso回归——符号速记和梯度计算》
27, Mar (Week 4)	▩ 关联规则挖掘（Note 7） —频繁模式挖掘（Apriori） —FP-Growth 算法 —高级关联规则与闭合模式挖掘 ▩ 专题：黑板推演《隐变量模型-1——符号速记和期望计算》
30, Mar (Week 5)	▩ 异常检测 (Note 8） —统计方法（Z-score, Grubbs’ Test） —基于密度的方法（LOF） —基于深度学习的异常检测（Autoencoder, GAN） ▩ 专题：黑板推演《隐变量模型-2——算例A，极简模型》
3, Apr (Week 5)	▩ 维度约简与特征选择 (Note 9） —线性降维（PCA, LDA） —非线性降维（t-SNE, UMAP） —特征选择方法- ▩ 专题：《LDA》(Note)
10, Apr (Week 6)	▩ 机器学习模型评估 (Note 10） —交叉验证与数据划分策略 —评估指标（F1-score, ROC曲线） —过拟合与正则化 ▩ 专题：《隐变量模型-3——算例B，考虑ANN摊销计算》(Note)
13, Apr (Week 7)	▩ 时间序列数据挖掘 (Note 11） —时间序列数据的特点 —预测模型（ARIMA, LSTM） —时间序列聚类 ▩ 专题：《隐变量模型-4——算例C，摊销计算之VAE模型》（Note，Slides）
17, Apr (Week 7)	▩ 图数据挖掘 (Note 12） —PageRank 算法 —社区发现（Louvain算法） —图神经网络（GNN） —RESCAL算法 ▩ 专题：《隐变量模型-5/6——GAN模型/Diffusion模型》(Note, Note)
20, Apr (Week 8)	▩ 文本数据挖掘 (Note 13） —自然语言处理基础 —潜在语义分析（LSA） —主题建模（LDA） —词向量（Word2Vec, TF-IDF） —基于深度学习的文本分类（BERT, Transformer） ▩ 专题：《隐变量模型-7/8——MVAE模型/改进》(Paper, Note)
24, Apr (Week 8)	▩ 数据挖掘应用案例-1 (Note 14） —推荐系统（协同过滤） —电子商务与金融风控 —医疗健康大数据分析 ▩ 专题：《隐变量模型-9——VIB模型》(Paper, Note)
27, Apr (Week 9)	▩ 数据挖掘应用案例-2 (Note 15） ▩ (Term Exam)

Note X Presentations (Link)

Course Note Available upon Request:

Link to the request page.

二、考核方式:

平时成绩+期末考查

注1: 请查看课程周次安排，依据讲授内容挑选感兴趣的主题来准备你的Note。在下表的Presenter列中填入学生姓名，在Note Title列中填入笔记名称。
注2: 依据Note X的周次安排，学生对所准备内容进行讲解，讲解时长为5~7分钟。每节课的Presenter至多2人，Presentation时长总计5～10分钟为宜。
注3: 可以围绕讲授提纲进行概览性讲解，也可以针对若干兴趣点集中展开评点。
注4: 请在docs.qq.com创建你的Note文档，设置好“所有人可查看”的分享权限，并将文档链接填写在Note X Presentations (Link)在线文档的Link列中。
注5: 请保持Note的更新，在期末完成最终修订。
注6: 请在Note文档的标题栏下提供你的署名。请在文中给出恰当的参考资源链接。期末我们将把所有Note集结成册。

. /\_/\ .可选项：

.( o.o ).期末可提交课程笔记

. > ^ < .期末可提交算法心得(仅限课程所讲授算法)