当前位置：首页 > news >正文

借助 OpenCV 和 PyTorch 库，利用卷积神经网络提取图像边缘特征

news 来源：原创 2025/4/24 11:47:54

此 Python 代码借助 OpenCV 和 PyTorch 库，实现了实时获取摄像头图像，利用卷积神经网络提取图像边缘特征，并将原始图像和提取的边缘特征图像实时显示出来的功能。

代码详细说明

1. 导入必要的库

python

import cv2
import torch
import torch.nn as nn
import numpy as np

cv2：OpenCV 库，用于摄像头图像的读取、处理和显示。
torch 和 torch.nn：PyTorch 深度学习框架相关库，用于构建和运行卷积神经网络。
numpy：用于数值计算和数组操作。

2. 定义卷积神经网络类 `EdgeDetector`

python

# 定义一个简单的卷积神经网络用于边缘特征提取
class EdgeDetector(nn.Module):def __init__(self):super(EdgeDetector, self).__init__()# 定义一个卷积层，使用Sobel算子的近似卷积核来提取边缘self.conv = nn.Conv2d(1, 1, kernel_size=3, stride=1, padding=1, bias=False)# Sobel算子的x方向卷积核sobel_kernel = torch.tensor([[-1, 0, 1], [-2, 0, 2], [-1, 0, 1]], dtype=torch.float32).unsqueeze(0).unsqueeze(0)self.conv.weight.data = sobel_kerneldef forward(self, x):return self.conv(x)

EdgeDetector 类继承自 nn.Module，这是 PyTorch 中所有神经网络模块的基类。
- __init__ 方法：
  - self.conv = nn.Conv2d(1, 1, kernel_size=3, stride=1, padding=1, bias=False)：定义一个二维卷积层，输入通道数为 1（灰度图像），输出通道数为 1，卷积核大小为 3x3，步长为 1，填充为 1，不使用偏置。
  - sobel_kernel = torch.tensor([[-1, 0, 1], [-2, 0, 2], [-1, 0, 1]], dtype=torch.float32).unsqueeze(0).unsqueeze(0)：创建 Sobel 算子的 x 方向卷积核，并将其转换为 PyTorch 张量，同时增加维度以匹配卷积层权重的形状。
  - self.conv.weight.data = sobel_kernel：将自定义的 Sobel 卷积核赋值给卷积层的权重。
- forward 方法：定义了网络的前向传播过程，将输入 x 通过卷积层 self.conv 进行计算并返回结果。

3. 初始化卷积神经网络

python

# 初始化卷积神经网络
model = EdgeDetector()

创建 EdgeDetector 类的实例 model，用于后续的边缘特征提取。

4. 打开摄像头

python

# 打开摄像头
cap = cv2.VideoCapture(0)if not cap.isOpened():print("无法打开摄像头")exit()

cv2.VideoCapture(0)：尝试打开默认摄像头（设备索引为 0）。
if not cap.isOpened()：检查摄像头是否成功打开，若未成功则打印错误信息并退出程序。

5. 主循环，实时处理图像

python

while True:# 读取摄像头的一帧图像ret, frame = cap.read()if not ret:print("无法读取帧")break# 将图像转换为灰度图gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)# 将图像转换为PyTorch张量img_tensor = torch.from_numpy(gray).float().unsqueeze(0).unsqueeze(0)# 通过卷积神经网络提取边缘特征with torch.no_grad():edges = model(img_tensor)# 将输出转换为NumPy数组edges_np = edges.squeeze().numpy()# 对边缘特征进行归一化处理edges_np = (edges_np - edges_np.min()) / (edges_np.max() - edges_np.min()) * 255edges_np = edges_np.astype(np.uint8)# 显示原始图像和边缘特征图像cv2.imshow('Original', frame)cv2.imshow('Edges', edges_np)# 按 'q' 键退出循环if cv2.waitKey(1) & 0xFF == ord('q'):break

ret, frame = cap.read()：从摄像头读取一帧图像，ret 表示是否成功读取，frame 为读取到的图像数据。
cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)：将彩色图像转换为灰度图像，因为后续的卷积层输入要求为单通道图像。
torch.from_numpy(gray).float().unsqueeze(0).unsqueeze(0)：将 NumPy 数组形式的灰度图像转换为 PyTorch 张量，并增加维度以匹配卷积层输入的形状（批量大小为 1，通道数为 1）。
with torch.no_grad()：在推理过程中不计算梯度，以节省内存和计算资源。
edges = model(img_tensor)：将图像张量输入到卷积神经网络中进行边缘特征提取。
edges.squeeze().numpy()：将输出的张量转换为 NumPy 数组，并去除多余的维度。
(edges_np - edges_np.min()) / (edges_np.max() - edges_np.min()) * 255：对边缘特征数组进行归一化处理，将其像素值范围映射到 0 - 255 之间。
edges_np.astype(np.uint8)：将归一化后的数组转换为无符号 8 位整数类型，以便使用 OpenCV 进行显示。
cv2.imshow('Original', frame) 和 cv2.imshow('Edges', edges_np)：分别显示原始图像和提取的边缘特征图像。
cv2.waitKey(1) & 0xFF == ord('q')：等待 1 毫秒，检查是否按下了 'q' 键，若按下则退出循环。

6. 释放资源

python

# 释放摄像头并关闭所有窗口
cap.release()
cv2.destroyAllWindows()

cap.release()：释放摄像头资源。
cv2.destroyAllWindows()：关闭所有由 OpenCV 创建的窗口。

总结

此代码通过结合 OpenCV 和 PyTorch，实现了一个简单的实时图像边缘特征提取系统。利用自定义的 Sobel 卷积核的卷积神经网络对摄像头捕获的图像进行处理，最终将原始图像和提取的边缘特征图像实时显示出来。

完整代码

import cv2
import torch
import torch.nn as nn
import numpy as np# 定义一个简单的卷积神经网络用于边缘特征提取
class EdgeDetector(nn.Module):def __init__(self):super(EdgeDetector, self).__init__()# 定义一个卷积层，使用Sobel算子的近似卷积核来提取边缘self.conv = nn.Conv2d(1, 1, kernel_size=3, stride=1, padding=1, bias=False)# Sobel算子的x方向卷积核sobel_kernel = torch.tensor([[-1, 0, 1], [-2, 0, 2], [-1, 0, 1]], dtype=torch.float32).unsqueeze(0).unsqueeze(0)self.conv.weight.data = sobel_kerneldef forward(self, x):return self.conv(x)# 初始化卷积神经网络
model = EdgeDetector()# 打开摄像头
cap = cv2.VideoCapture(0)if not cap.isOpened():print("无法打开摄像头")exit()while True:# 读取摄像头的一帧图像ret, frame = cap.read()if not ret:print("无法读取帧")break# 将图像转换为灰度图gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)# 将图像转换为PyTorch张量img_tensor = torch.from_numpy(gray).float().unsqueeze(0).unsqueeze(0)# 通过卷积神经网络提取边缘特征with torch.no_grad():edges = model(img_tensor)# 将输出转换为NumPy数组edges_np = edges.squeeze().numpy()# 对边缘特征进行归一化处理edges_np = (edges_np - edges_np.min()) / (edges_np.max() - edges_np.min()) * 255edges_np = edges_np.astype(np.uint8)# 显示原始图像和边缘特征图像cv2.imshow('Original', frame)cv2.imshow('Edges', edges_np)# 按 'q' 键退出循环if cv2.waitKey(1) & 0xFF == ord('q'):break# 释放摄像头并关闭所有窗口
cap.release()
cv2.destroyAllWindows()