当前位置：首页 > news >正文

【机器学习速记】面试重点/期末考试

news 来源：原创 2025/4/26 3:16:46

自用，有错误欢迎评论区指出

目录

一、机器学习基础概念

二、机器学习类型分类

三、经典算法与原理

1. 线性模型

2. 决策树

3. SVM（支持向量机）

4. K近邻（KNN）

5. 贝叶斯分类

6. 集成学习

四、模型评价指标

五、模型泛化能力与调参

六、特征工程与数据预处理

七、维度约简与降维方法

八、强化学习简要介绍

九、常见面试/复试问答题

1. 什么是过拟合？如何解决？

2. 逻辑回归与SVM的区别？

3. PCA与LDA的区别？

4. 什么是核函数？SVM为何需要核函数？

5. 机器学习与深度学习的区别？

6. XGBoost相比传统GBDT的优势有哪些？

7. Bias-Variance（偏差-方差）权衡是什么意思？

8. 为什么特征要标准化/归一化？

9. 训练集和测试集如何划分？交叉验证的作用？

10. 梯度消失与梯度爆炸的含义？如何缓解？

一、机器学习基础概念

概念	说明
什么是机器学习？	机器学习是一门使计算机从数据中学习经验并做出预测或决策的学科。
机器学习 vs 传统编程	传统编程：规则 + 数据 → 结果；机器学习：数据 + 结果 → 学习规则。
机器学习三要素	模型（Model）、策略（Strategy）、算法（Algorithm）

二、机器学习类型分类

类型	特点	典型算法
监督学习	有标签数据，预测输出	线性回归、逻辑回归、SVM、决策树、KNN、神经网络
无监督学习	无标签数据，发现结构	聚类（K-means）、降维（PCA）
半监督学习	小部分有标签，大量无标签数据
强化学习	智能体通过与环境交互获得最大奖励	Q-learning、DQN、策略梯度等

三、经典算法与原理

1. 线性模型

线性回归：损失函数是均方误差（MSE），求解方法是最小二乘法。
逻辑回归：用于分类，输出为概率（sigmoid），损失函数是对数似然函数。

2. 决策树

分裂依据：信息增益（ID3）、信息增益率（C4.5）、基尼指数（CART）

【机器学习】熵-信息增益-ID3-C4.5_. 什么是熵?熵在决策树算法中有什么作用?-CSDN博客

优点：可解释性强；缺点：容易过拟合

3. SVM（支持向量机）

最大间隔分类器，核心是构造间隔最大的超平面
使用核函数解决非线性问题（如 RBF、Poly）

4. K近邻（KNN）

基于“相似数据点具有相似标签”，没有训练过程，计算开销大

5. 贝叶斯分类

基于贝叶斯定理，朴素贝叶斯假设特征之间条件独立

6. 集成学习

Bagging（并行）：随机森林
Boosting（串行）：AdaBoost，Gradient Boosting（如XGBoost）

四、模型评价指标

任务类型	指标
回归	MSE、RMSE、MAE、R²
分类	准确率、精确率、召回率、F1分数、AUC-ROC

五、模型泛化能力与调参

问题	描述	解决方法
过拟合

相关文章：

Flink 系列之七 - Data Stream API的源算子原理

MODBUS转EtherNetIP智能网关构建智能产线：跨协议设备动态组网与数据优化传输

【git#4】分支管理 -- 知识补充

MongoDB 图片 URL 存储异常问题解决方案

React 实现爱心花园动画

AWS Glue ETL设计与调度最佳实践

2025上海车展 | 移远通信48 TOPS座舱方案落地加速，AI大模型赋能多域融合新突破

【器件专题1——IGBT第1讲】IGBT：电力电子领域的 “万能开关”，如何撑起新能源时代？

Estimands与Intercurrent Events：临床试验与统计学核心框架

高等数学第一章---函数与极限(1.8连续函数及其连续性)

C++初窥门径

三格电子——如何解决工业场景中以太网设备布线不方便的问题

Linux 系统用户管理与权限掌控：从基础到精通

Framework模块编译脚本利器

1688商品采集|下单接口实战演示（含请求示例）

【C语言练习】003. 声明不同数据类型的变量并赋值

Python图形界面编程（二）

TCP协议理解

c#接口_抽象类_多态学习

Golang日志模块之xlog

保时捷中国研发中心落户上海虹桥商务区，计划下半年投入运营

经济日报金观平：充分发挥增量政策的经济牵引力

江苏、安徽跨省联动共治“样板间”：进一扇门可办两省事

广汽集团一季度净亏损7.3亿元，同比转亏，总销量下滑9%

印媒称印巴在克什米尔控制线沿线发生小规模交火，巴方暂未回应

“网红”谭媛去世三年：未停更的账号和困境中的家庭