当前位置：首页 > news >正文

凸优化基础

news 来源：原创 2025/4/21 7:52:01

文章目录

目录
- - - **第1讲：凸优化基础**
    - **第2讲：凸优化建模**
    - **第3讲：对偶理论**
    - **第4讲：梯度下降法**
    - **第5讲：牛顿法与内点法**
    - **第6讲：次梯度与近端方法**
    - **第7讲：分布式凸优化**
    - **第8讲：鲁棒优化**
    - **第9讲：凸优化在AI中的应用**
    - **第10讲：前沿与总结**
**第1讲：凸优化基础**
- **理论部分**
- - **1. 凸集的定义**
  - **2. 凸函数的定义**
  - **3. 凸优化问题的标准形式**
  - **4. 全局最优性**
- **案例部分**
- - **线性回归的凸性证明**
- **代码部分**
- - **使用MATLAB `fmincon` 验证凸函数最小值**
实例
- - **实例1：稀疏信号恢复（L1正则化最小二乘）**
  - - **问题描述**
    - **MATLAB代码**
  - **实例2：鲁棒投资组合优化（半定规划）**
  - - **问题描述**
    - **MATLAB代码**
  - **实例3：多智能体协同控制（分布式优化）**
  - - **问题描述**
    - **MATLAB代码**
  - **实例4：带障碍函数的路径规划（内点法）**
  - - **问题描述**
    - **MATLAB代码**
  - **实例5：鲁棒支持向量机（SOCP）**
  - - **问题描述**
    - **MATLAB代码**

第1讲：凸优化基础

理论部分

1. 凸集的定义

凸集是凸优化理论的基石，用于定义问题的可行域。

定义：
一个集合 $\subseteq \mathbb{R}^n$ 被称为凸集，如果对于任意两点 $\in C$ 和任意 $\lambda \in [0, 1]$ ，都有：
$λx+(1−λ)y∈C\lambda x + (1 - \lambda) y \in C$
这意味着连接 $x$ 和 $y$ 的线段完全包含在 $C$ 内。
直观理解：
凸集没有“凹陷”或“空洞”，形状类似于圆盘、矩形等。例如，想象一个橡皮泥球，无论如何拉伸，只要不撕裂，它仍是凸的。
例子：
- 空集 $\emptyset$ 和单点集 ${x\}$ 是凸集。
- 整个实数空间 $\mathbb{R}^n$ 是凸集。
- 闭球： $\{ x \in \mathbb{R}^n \mid \|x\| \leq r \}$ 。
- 半空间： $\{ x \in \mathbb{R}^n \mid a^T x \leq b \}$ ，其中 $\in \mathbb{R}^n$ ， $\in \mathbb{R}$ 。
- 凸多边形（二维）或凸多面体（三维）。
反例：
- 环形区域： $\{ x \in \mathbb{R}^2 \mid 1 \leq \|x\| \leq 2 \}$ （两点间的线段会穿过空心部分）。
- 星形区域：如五角星，某些点之间的线段超出集合。

2. 凸函数的定义

凸函数决定了优化问题的“形状”，是理解凸优化的核心。

定义：
函数 $\mathbb{R}^n \rightarrow \mathbb{R}$ 是凸函数，如果对于任意 $\in \mathbb{R}^n$ 和 $\lambda \in [0, 1]$ ，满足：
$f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)f(\lambda x + (1 - \lambda) y) \leq \lambda f(x) + (1 - \lambda) f(y)$
这表示函数图像在任意两点之间的弦位于曲线上方。
直观理解：
凸函数形似“碗底向上”，在一维情况下，其图像不会出现多个“低谷”。例如，抛物线 $f(x) = x^2$ 是凸的，而 $f(x) = x^3$ 不是。
性质：
- 局部最小即全局最小：若 $x^*$ 是局部最小点，则 $f(x^*) \leq f(x)$ 对所有 $x$ 成立。
- 梯度条件（若可微）： $\geq f(x) + \nabla f(x)^T (y - x)$ 。
- Hessian条件（若二次可微）：Hessian矩阵 $\nabla^2 f(x)$ 在所有 $x$ 处半正定。
例子：
- 线性函数： $f(x) = a^T x + b$ （既凸又凹）。
- 二次函数： $\frac{1}{2} x^T Q x + c^T x + d$ ， $Q$ 半正定。
- 指数函数： $f(x) = e^x$ 。
- 范数： $f(x) = \|x\|_p$ （如 $p = 1, 2$ ）。

3. 凸优化问题的标准形式

凸优化问题具有统一的数学表达，确保其可解性和唯一性。

标准形式：
$\begin{array}{ll} \text{minimize} & f(x) \\ \text{subject to} & g_i(x) \leq 0, \quad i = 1, \ldots, m \\ & h_j(x) = 0, \quad j = 1, \ldots, p \end{array}$
其中：
- $f$ ：凸函数（目标函数）。
- $g_i$ ：凸函数（不等式约束）。
- $h_j$ ：仿射函数（如 $h_j(x) = a_j^T x - b_j$ ）。
组成部分：
- 目标函数 $f (x)$ ：需最小化，凸性保证单一全局解。
- 不等式约束 $g_i(x) \leq 0$ ：定义凸的可行域。
- 等式约束 $h_j(x) = 0$ ：保持凸性（仿射约束不会破坏凸集）。
意义：
标准形式将复杂的实际问题转化为数学模型，便于理论分析和算法设计。

4. 全局最优性

凸优化问题的独特优势在于局部最优解即全局最优解。

性质：
在凸优化问题中，任何局部最优解都是全局最优解。
证明概要：
假设 $x^*$ 是局部最优解，即存在邻域 $\|x - x^*\| < \epsilon$ 内 $\geq f(x^*)$ 。对于任意可行点 $y$ ，取 $\lambda y + (1 - \lambda) x^*$ （ $\lambda < 1$ ），由于可行域凸， $z$ 可行；由于 $f$ 凸，
$\leq \lambda f(y) + (1 - \lambda) f(x^*)$
当 $\lambda$ 足够小， $z$ 在邻域内，故 $\geq f(x^*)$ 。结合上式， $\geq f(x^*)$ ，即 $x^*$ 为全局最优。
应用：
这一性质允许使用简单算法（如梯度下降）高效求解，而无需担心陷入局部极值。

案例部分

线性回归的凸性证明

线性回归是凸优化的经典应用，广泛用于数据拟合。

问题描述：
给定数据集 ${ (x_i, y_i) \}_{i=1}^N$ （ $x_i \in \mathbb{R}^d$ , $y_i \in \mathbb{R}$ ），求解 $\in \mathbb{R}^d$ 和 $\in \mathbb{R}$ ，使平方损失最小：
$\sum_{i=1}^N (y_i - w^T x_i - b)^2$
优化形式：
$\min_{w, b} \quad L(w, b)$
无约束优化问题。
凸性证明：
- 定义 $\theta = [w; b] \in \mathbb{R}^{d+1}$ ，扩展 $\tilde{x}_i = [x_i; 1]$ ，则：
  $L(θ)=∑i=1N(yi−θTx~i)2L(\theta) = \sum_{i=1}^N (y_i - \theta^T \tilde{x}_i)^2$
- $L(\theta)$ 是二次函数，其Hessian为：
  $\nabla^2 L(\theta) = 2 \sum_{i=1}^N \tilde{x}_i \tilde{x}_i^T$
- 验证半正定性：对于任意 $\in \mathbb{R}^{d+1}$ ，
  $$
  - zTHz=2∑i=1N(zTx~i)2≥0z^T H z = 2 \sum_{i=1}^N (z^T \tilde{x}_i)^2 \geq 0
  $$
  若 $\sum \tilde{x}_i \tilde{x}_i^T$ 满秩（如数据点线性无关）， $H$ 正定， $L$ 强凸。
结论：
线性回归是凸优化问题，其全局最优解可通过解析法（正规方程）或迭代法（梯度下降）求得。

代码部分

使用MATLAB `fmincon` 验证凸函数最小值

通过编程实践验证凸优化的全局最优性。

问题：
求解 $\text{minimize} \ f(x) = x^2 + 2x + 1$ ，理论最优解 $x = - 1$ ， $f (- 1) = 0$ 。
代码：

% 设置初始点 x0 = 0;% 使用fmincon求解无约束优化问题 options = optimoptions('fmincon', 'Display', 'iter', 'Algorithm', 'sqp'); [x_opt, fval] = fmincon(fun, x0, [], [], [], [], [], [], [], options);% 输出结果 fprintf('最优解: x = %.4f, 函数值 f(x) = %.4f\n', x_opt, fval);% 可视化验证 x_range = linspace(-3, 1, 100); f_values = arrayfun(fun, x_range); figure; plot(x_range, f_values, 'b-', 'LineWidth', 2); hold on; plot(x_opt, fval, 'ro', 'MarkerSize', 10, 'LineWidth', 2); title('凸函数 f(x) = x^2 + 2x + 1 的优化'); xlabel('x'); ylabel('f(x)'); grid on; legend('f(x)', '最优解');

解释：
- 目标函数： $f(x) = x^2 + 2x + 1 = (x + 1)^2$ ，凸且最小值为0。
- fmincon：MATLAB优化工具，尽管用于约束问题，此处无约束仍适用。
- 选项：'Display', 'iter' 显示迭代过程，'Algorithm', 'sqp' 使用序列二次规划法。
- 可视化：绘制函数曲线和最优解点，直观验证结果。
运行结果：
输出 $\approx -1$ ， $\approx 0$ ，迭代过程显示快速收敛，验证全局最优性。

实例

实例1：稀疏信号恢复（L1正则化最小二乘）

问题描述

求解稀疏信号 $\in \mathbb{R}^n$ 满足 $\epsilon$ ，其中 $\in \mathbb{R}^{m \times n}$ （ $\ll n$ ）， $\epsilon$ 为噪声。目标是最小化：

$\min_x \frac{1}{2} \|Ax - y\|_2^2 + \lambda \|x\|_1$

（L1正则项促进稀疏性）

非光滑L1项需用近端梯度法或ADMM求解。
需平衡拟合误差与稀疏性（选择 $\lambda$ ）。

MATLAB代码

% 生成稀疏信号
n = 100; m = 30; k = 5; % k-稀疏信号
A = randn(m, n);
x_true = zeros(n, 1); x_true(randperm(n, k)) = randn(k, 1);
y = A * x_true + 0.1 * randn(m, 1);% 使用CVX求解Lasso问题
cvx_beginvariable x(n)minimize( 0.5 * sum_square(A * x - y) + 0.5 * norm(x, 1) ) % lambda=0.5
cvx_end% 可视化
figure; 
subplot(2,1,1); stem(x_true, 'b'); title('真实稀疏信号');
subplot(2,1,2); stem(x, 'r'); title('Lasso恢复信号');

实例2：鲁棒投资组合优化（半定规划）

问题描述

在资产收益率不确定下，最小化投资风险：

$\min_w \max_{\Sigma \in \mathcal{U}} w^T \Sigma w \quad \text{s.t.} \quad \sum w_i = 1, w \geq 0$

其中 $\mathcal{U} = \{ \Sigma \succeq 0 \mid \|\Sigma - \Sigma_0\|_F \leq \rho \}$ 为协方差矩阵的不确定集。

MATLAB代码

% 生成数据
n = 5; Sigma0 = randn(n); Sigma0 = Sigma0' * Sigma0; % 真实协方差
rho = 0.1;% 使用YALMIP建模
w = sdpvar(n,1);
Sigma = sdpvar(n,n);
Constraints = [sum(w) == 1, w >= 0, norm(Sigma - Sigma0, 'fro') <= rho, Sigma >= 0];
Objective = max(w' * Sigma * w); % 最坏情况风险
optimize(Constraints, Objective);% 输出最优权重
disp('最优权重:'); disp(value(w));

实例3：多智能体协同控制（分布式优化）

问题描述

$N$ 个智能体协同最小化全局目标：

$\min_{x_1, \ldots, x_N} \sum_{i=1}^N f_i(x_i) \quad \text{s.t.} \quad x_i = x_j \ (\forall i,j)$

（每个 $f_i$ 为局部凸函数，约束要求一致性）

需分布式算法（如ADMM）处理大规模问题。
通信拓扑影响收敛速度。

MATLAB代码

% 定义局部函数（二次函数为例）
N = 10; 
f = @(x, i) (x - i)^2; % 第i个智能体的目标% ADMM实现
rho = 1; max_iter = 100;
x = zeros(N,1); z = 0; u = zeros(N,1);for k = 1:max_iter% x-update (并行求解)for i = 1:Nx(i) = (i + rho*(z - u(i))) / (1 + rho);end% z-update (全局平均)z_prev = z;z = mean(x + u);% u-updateu = u + (x - z);% 终止条件if norm(x - z) < 1e-4, break; end
enddisp('一致性状态:'); disp(x);

实例4：带障碍函数的路径规划（内点法）

问题描述

在障碍物环境中规划路径 $\in \mathbb{R}^2$ ：

$\min_{x(t)} \int_0^T \|\dot{x}(t)\|^2 dt \quad \text{s.t.} \quad \|x(t) - o_i\| \geq r_i \ (\forall t, i)$

（ $o_i$ 为障碍物中心， $r_i$ 为半径）

非凸约束需用对数障碍函数近似：
$ϕ(x)=−∑ilog⁡(∥x−oi∥2−ri2)\phi(x) = -\sum_i \log(\|x - o_i\|^2 - r_i^2)$
离散化后求解大规模QP。

MATLAB代码

% 障碍物设置
obstacles = [1, 1, 0.5; 2, 3, 0.7]; % [x, y, r]% 离散化路径
N = 50; t = linspace(0, 1, N)';
x = sdpvar(N,2); % 路径点% 目标函数（平滑性）
Objective = sum(sum(diff(x).^2));% 障碍约束（对数障碍）
barrier = 0;
for i = 1:size(obstacles,1)dist = sum((x - obstacles(i,1:2)).^2, 2) - obstacles(i,3)^2;barrier = barrier - sum(log(dist));
end% 求解
optimize([], Objective + 0.1 * barrier); % 权重调节
plot(value(x(:,1)), value(x(:,2)), 'r-o'); hold on;
viscircles(obstacles(:,1:2), obstacles(:,3));

实例5：鲁棒支持向量机（SOCP）

问题描述

在数据不确定下训练SVM：

$\min_{w,b} \|w\|_2 \quad \text{s.t.} \quad y_i(w^T (x_i + \delta_i) + b) \geq 1 \ (\forall \|\delta_i\| \leq \rho)$

（ $\delta_i$ 为输入扰动，鲁棒性要求对扰动不敏感）

鲁棒约束可转化为二阶锥约束（SOCP）。
需处理无穷多约束的等价形式。

MATLAB代码

% 生成线性不可分数据
X = [randn(20,2) + 1; randn(20,2) - 1];
y = [ones(20,1); -ones(20,1)];
rho = 0.1; % 扰动半径% 使用CVX建模鲁棒SVM
cvx_beginvariables w(2) bminimize( norm(w) )subject tofor i = 1:size(X,1)y(i) * (w' * X(i,:)' + b) >= 1 + rho * norm(w); % 鲁棒约束end
cvx_end% 可视化
scatter(X(:,1), X(:,2), [], y);
hold on;
f = @(x) - (w(1)*x + b)/w(2);
fplot(f, [-3,3], 'LineWidth', 2);