监督学习模型

C4.5(决策树)

原理:基于信息增益比选择特征递归划分数据,生成易于解释的树形结构。
特点:
支持连续/离散特征,自动处理缺失值。
易过拟合,需剪枝(如REP算法)。

朴素贝叶斯(Naive Bayes)

原理:基于贝叶斯定理,假设特征条件独立,计算后验概率分类。
特点:
计算高效(O(n)),适合高维数据(如文本分类)。
独立性假设在实际中常不成立。

SVM(支持向量机)

原理:寻找最大化分类间隔的超平面,用核函数处理非线性(如RBF核)。
特点:
适合小样本高维度数据,但核函数计算成本高。
可通过软间隔处理噪声。

KNN(K近邻)

原理:根据样本在特征空间的最近K个邻居投票决定类别。
特点:
惰性学习(无显式训练),但对噪声和维度灾难敏感。
需距离度量(如欧氏距离)和K值调优。

Adaboost

原理:迭代训练弱分类器(如决策树桩),调整样本权重聚焦错误样本。
特点:
集成学习代表,对异常值敏感。
最终模型为弱分类器的加权投票。

CART(分类与回归树)

原理:二叉递归分割,分类用基尼指数,回归用平方误差最小化。
特点:
生成二叉树,支持数值型和类别型特征。
随机森林和GBDT的基础组件。

模型对比

模型 训练效率 解释性 主要缺点 典型场景
C4.5 易过拟合 医疗诊断
朴素贝叶斯 独立性假设 垃圾邮件过滤
SVM 核函数选择复杂 图像分类
KNN 无训练 计算开销大 推荐系统
Adaboost 对噪声敏感 人脸检测
CART 不稳定(小数据波动影响) 客户分群

无监督学习模型

K-means

原理:迭代将样本分配到最近的K个中心点,更新中心至簇内均值。
特点:
需预设K值,对初始中心和异常值敏感。
适合球形分布数据。

EM(期望最大化)

原理:通过E步(求期望)和M步(最大化似然)迭代优化隐变量模型(如GMM)。
特点:
通用框架,收敛慢且可能到局部最优。
常用于聚类(GMM)或缺失值填充。

对比(无监督模型)

模型 需预设参数 适用数据分布 主要缺点
K-means K值 球形簇 对非凸分布失效
EM(GMM) 成分数 任意分布 计算复杂,易局部最优

关联规则挖掘

Apriori

原理:逐层搜索频繁项集(支持度≥阈值),用先验性质剪枝。
特点:
适合稀疏事务数据(如购物篮分析)。
计算复杂度高(O(2^n)),改进算法如FP-Growth更快。

链接分析

PageRank

原理:将网页视为节点,根据入链数量和质量迭代计算权重。
特点:
本质是马尔可夫链的稳态分布。
应用扩展到社交网络、生物通路分析。

模型联系与演进

决策树家族:
ID3 → C4.5(信息增益比) → CART(基尼指数) → 随机森林/GBDT(集成)
集成学习:
Adaboost(序列加权) → GBDT(梯度提升)→ XGBoost(工程优化)
核方法:
SVM(显式核映射) → 深度学习(隐式核学习)
EM与聚类:
K-means(硬分配) → GMM(软分配,EM实现)
关联与图模型:
Apriori(规则挖掘) → Graph Neural Networks(复杂关系建模)

总结

分类任务:SVM/朴素贝叶斯适合小样本,决策树/集成方法适合结构化数据。
聚类任务:K-means简单高效,EM/GMM更灵活但复杂。
关联分析:Apriori是基础,PageRank拓展至图数据。
核心趋势:从单模型(C4.5)→ 集成(Adaboost)→ 深度学习(自动特征学习)。