【机器学习速记】面试重点/期末考试
自用,有错误欢迎评论区指出
目录
一、机器学习基础概念
二、机器学习类型分类
三、经典算法与原理
1. 线性模型
2. 决策树
3. SVM(支持向量机)
4. K近邻(KNN)
5. 贝叶斯分类
6. 集成学习
四、模型评价指标
五、模型泛化能力与调参
六、特征工程与数据预处理
七、维度约简与降维方法
八、强化学习简要介绍
九、常见面试/复试问答题
1. 什么是过拟合?如何解决?
2. 逻辑回归与SVM的区别?
3. PCA与LDA的区别?
4. 什么是核函数?SVM为何需要核函数?
5. 机器学习与深度学习的区别?
6. XGBoost相比传统GBDT的优势有哪些?
7. Bias-Variance(偏差-方差)权衡是什么意思?
8. 为什么特征要标准化/归一化?
9. 训练集和测试集如何划分?交叉验证的作用?
10. 梯度消失与梯度爆炸的含义?如何缓解?
一、机器学习基础概念
概念 | 说明 |
---|---|
什么是机器学习? | 机器学习是一门使计算机从数据中学习经验并做出预测或决策的学科。 |
机器学习 vs 传统编程 | 传统编程:规则 + 数据 → 结果;机器学习:数据 + 结果 → 学习规则。 |
机器学习三要素 | 模型(Model)、策略(Strategy)、算法(Algorithm) |
二、机器学习类型分类
类型 | 特点 | 典型算法 |
---|---|---|
监督学习 | 有标签数据,预测输出 | 线性回归、逻辑回归、SVM、决策树、KNN、神经网络 |
无监督学习 | 无标签数据,发现结构 | 聚类(K-means)、降维(PCA) |
半监督学习 | 小部分有标签,大量无标签数据 | |
强化学习 | 智能体通过与环境交互获得最大奖励 | Q-learning、DQN、策略梯度等 |
三、经典算法与原理
1. 线性模型
-
线性回归:损失函数是均方误差(MSE),求解方法是最小二乘法。
-
逻辑回归:用于分类,输出为概率(sigmoid),损失函数是对数似然函数。
2. 决策树
-
分裂依据:信息增益(ID3)、信息增益率(C4.5)、基尼指数(CART)
【机器学习】熵-信息增益-ID3-C4.5_. 什么是熵?熵在决策树算法中有什么作用?-CSDN博客
-
优点:可解释性强;缺点:容易过拟合
3. SVM(支持向量机)
-
最大间隔分类器,核心是构造间隔最大的超平面
-
使用核函数解决非线性问题(如 RBF、Poly)
4. K近邻(KNN)
-
基于“相似数据点具有相似标签”,没有训练过程,计算开销大
5. 贝叶斯分类
-
基于贝叶斯定理,朴素贝叶斯假设特征之间条件独立
6. 集成学习
-
Bagging(并行):随机森林
-
Boosting(串行):AdaBoost,Gradient Boosting(如XGBoost)
四、模型评价指标
任务类型 | 指标 |
---|---|
回归 | MSE、RMSE、MAE、R² |
分类 | 准确率、精确率、召回率、F1分数、AUC-ROC |
五、模型泛化能力与调参
问题 | 描述 | 解决方法 |
---|---|---|
过拟合 |