10大经典算法模型工作原理
监督学习模型
C4.5(决策树)
原理:基于信息增益比选择特征递归划分数据,生成易于解释的树形结构。
特点:
支持连续/离散特征,自动处理缺失值。
易过拟合,需剪枝(如REP算法)。
朴素贝叶斯(Naive Bayes)
原理:基于贝叶斯定理,假设特征条件独立,计算后验概率分类。
特点:
计算高效(O(n)),适合高维数据(如文本分类)。
独立性假设在实际中常不成立。
SVM(支持向量机)
原理:寻找最大化分类间隔的超平面,用核函数处理非线性(如RBF核)。
特点:
适合小样本高维度数据,但核函数计算成本高。
可通过软间隔处理噪声。
KNN(K近邻)
原理:根据样本在特征空间的最近K个邻居投票决定类别。
特点:
惰性学习(无显式训练),但对噪声和维度灾难敏感。
需距离度量(如欧氏距离)和K值调优。
Adaboost
原理:迭代训练弱分类器(如决策树桩),调整样本权重聚焦错误样本。
特点:
集成学习代表,对异常值敏感。
最终模型为弱分类器的加权投票。
CART(分类与回归树)
原理:二叉递归分割,分类用基尼指数,回归用平方误差最小化。
特点:
生成二叉树,支持数值型和类别型特征。
随机森林和GBDT的基础组件。
模型对比
| 模型 | 训练效率 | 解释性 | 主要缺点 | 典型场景 |
|---|---|---|---|---|
| C4.5 | 中 | 高 | 易过拟合 | 医疗诊断 |
| 朴素贝叶斯 | 高 | 中 | 独立性假设 | 垃圾邮件过滤 |
| SVM | 低 | 低 | 核函数选择复杂 | 图像分类 |
| KNN | 无训练 | 低 | 计算开销大 | 推荐系统 |
| Adaboost | 中 | 中 | 对噪声敏感 | 人脸检测 |
| CART | 高 | 高 | 不稳定(小数据波动影响) | 客户分群 |
无监督学习模型
K-means
原理:迭代将样本分配到最近的K个中心点,更新中心至簇内均值。
特点:
需预设K值,对初始中心和异常值敏感。
适合球形分布数据。
EM(期望最大化)
原理:通过E步(求期望)和M步(最大化似然)迭代优化隐变量模型(如GMM)。
特点:
通用框架,收敛慢且可能到局部最优。
常用于聚类(GMM)或缺失值填充。
对比(无监督模型)
| 模型 | 需预设参数 | 适用数据分布 | 主要缺点 |
|---|---|---|---|
| K-means | K值 | 球形簇 | 对非凸分布失效 |
| EM(GMM) | 成分数 | 任意分布 | 计算复杂,易局部最优 |
关联规则挖掘
Apriori
原理:逐层搜索频繁项集(支持度≥阈值),用先验性质剪枝。
特点:
适合稀疏事务数据(如购物篮分析)。
计算复杂度高(O(2^n)),改进算法如FP-Growth更快。
链接分析
PageRank
原理:将网页视为节点,根据入链数量和质量迭代计算权重。
特点:
本质是马尔可夫链的稳态分布。
应用扩展到社交网络、生物通路分析。
模型联系与演进
决策树家族:
ID3 → C4.5(信息增益比) → CART(基尼指数) → 随机森林/GBDT(集成)
集成学习:
Adaboost(序列加权) → GBDT(梯度提升)→ XGBoost(工程优化)
核方法:
SVM(显式核映射) → 深度学习(隐式核学习)
EM与聚类:
K-means(硬分配) → GMM(软分配,EM实现)
关联与图模型:
Apriori(规则挖掘) → Graph Neural Networks(复杂关系建模)
总结
分类任务:SVM/朴素贝叶斯适合小样本,决策树/集成方法适合结构化数据。
聚类任务:K-means简单高效,EM/GMM更灵活但复杂。
关联分析:Apriori是基础,PageRank拓展至图数据。
核心趋势:从单模型(C4.5)→ 集成(Adaboost)→ 深度学习(自动特征学习)。



