图像挖掘课程笔记-第一章:了解机器视觉
一、什么是图像挖掘(Image Mining)?
图像挖掘是一种从大量图像中自动提取有用信息、知识或模式的技术,它融合了图像处理、机器学习、数据库、人工智能、数据挖掘等多个领域的内容。
🧠 图像挖掘与图像处理的区别
-
图像处理:对图像本身进行操作,如滤波、去噪、增强、变换、压缩等,更侧重于图像的改善和变化。
-
图像挖掘:在处理图像基础上进一步提取高层次的信息,识别其中的模式、结构和语义,关注图像背后的知识。
🔍 应用场景举例
-
医学图像分析
-
CT、MRI、X光片中识别病变区域(如肿瘤检测)
-
自动辅助医生做出诊断
-
-
交通监控系统
-
自动识别车牌、车辆违章行为
-
智能交通流量控制
-
-
遥感图像分析
-
卫星图像监测土地使用、森林变化、城市扩张
-
-
电商图像推荐系统
-
根据用户浏览的商品图像推送相似款(如衣服、鞋子)
-
-
人脸识别与安防监控
-
门禁系统通过人脸识别身份
-
监控系统中识别特定人物行为
-
-
社交媒体图像分析
-
情绪识别、图像内容过滤、标签推荐等
-
二、什么是数字图像?
数字图像是把现实世界中的连续图像通过**采样(Sampling)和量化(Quantization)**过程转为离散形式。
-
采样:将连续图像空间划分为有限数量的像素点(如每英寸多少像素)
-
量化:将每个像素的颜色或灰度值转换为固定的数字值(如8位表示256种灰度)
数字图像实际上就是一个二维矩阵,每个矩阵单元(像素)记录颜色或灰度值。
三、图像的基础属性
1️⃣ 分辨率(Resolution)
-
表示图像的像素维度,常用“宽 × 高”表示,例如 1920×1080 表示宽1920像素,高1080像素。
-
总像素数 = 宽 × 高
-
决定图像显示时的精细程度。
📱 示例:手机拍照时标注的 12MP(1200万像素),可能对应的是图像分辨率为 4000×3000。
💡 分辨率越高 → 图像更细腻 → 文件体积更大。
2️⃣ 图像深度(Bit Depth)
-
描述图像中每个像素所能表示颜色的种类。
-
表示每个像素需要用多少位(bit)表示:
-
1位:2种颜色(黑/白)
-
8位:256级灰度
-
24位:RGB各占8位,共2^24 ≈ 1677万色
-
🔢 深度越大,图像颜色越丰富,细节越平滑,但文件体积也越大。
3️⃣ 图像通道(Channel)
-
通道表示图像中独立记录颜色或灰度信息的维度。
-
灰度图:1 个通道(亮度)
-
彩色图(RGB):3 个通道
-
带透明度(RGBA):4 个通道,A 是透明通道
-
📌 每个通道都是一张灰度图,用于存储颜色中某一部分的信息。
4️⃣ 灰度值(Grayscale Value)
-
灰度图中像素的亮度强度:
-
范围通常为 0~255
-
0 = 黑,255 = 白,中间值表示不同程度的灰色
-
🧠 灰度图常用于边缘检测、图像分割等场景中,因为颜色信息对结构识别不是必须的。
四、图像内存大小的计算方式
位图图像在未压缩状态下,占用内存计算如下:
图像大小(比特) = 宽度 × 高度 × 像素深度(每像素位数)
图像大小(字节) = 上式 ÷ 8
图像大小(KB) = 字节 ÷ 1024
图像大小(MB) = KB ÷ 1024
📌 示例:一张 1920×1080 的 24 位彩色图
-
位数 = 1920 × 1080 × 24 = 49,766,400 bits
-
字节 = 6,220,800 Bytes
-
大约是 5.93 MB(未压缩)
💡 图像压缩(如JPG、PNG)会大幅降低文件体积。
五、图像按颜色类型的分类
-
二值图像(Binary Image)
-
每像素1位(0或1),表示黑或白
-
应用:OCR识别、轮廓提取、图像掩模
-
-
灰度图像(Grayscale Image)
-
每像素用8位表示灰度,共256阶灰度
-
应用广泛于图像分析和模式识别中
-
-
彩色图像(Color Image)
-
每像素有多个颜色通道(一般为RGB)
-
每通道8位,共24位色彩 → 可表示1677万种颜色
-
应用于人眼可视的图像场景,如照片、视频
-
六、常见问题通俗解释
❓ 分辨率决定了什么?
就像画布被分成多少小格子,每个格子一个颜色。格子越小越多,细节越丰富。
❓ 图像深度是啥?
是每个格子可装颜色的"颜色盒"大小,深度越高,能放的颜色种类越多。
❓ 灰度值的意义?
灰度值就是黑白图中像素的明暗程度,0是最黑,255是最白。
❓ 分辨率越大内存占得越多?
是的,每个像素都需要储存颜色信息,像素越多,占用的空间就越大。
❓ 压缩是不是就是降分辨率?
部分压缩方式会降低分辨率,也有的通过色彩编码、无损压缩(如PNG)来减小空间。
❓ 图像可以放大变清晰吗?
可以放大,但清晰度不会提升。除非使用超分辨率技术(如AI模型)进行推断填补细节,否则只是"模糊拉伸"。
七、图像挖掘的基本流程
-
图像采集:从相机、传感器或数据库获取图像;
-
图像预处理:去噪、增强、缩放、标准化等;
-
特征提取:提取颜色、纹理、形状、边缘等特征;
-
特征选择/降维:选出最有代表性的特征;
-
建模与分析:使用机器学习/深度学习模型进行训练;
-
知识发现与应用:输出分类、检测结果、标签或推荐等。
八、图像挖掘中的机器学习简介
图像挖掘离不开机器学习,它为图像中的模式识别和分类提供了强大的工具。
📌 什么是机器学习?
机器学习是一种通过数据自动构建模型并进行预测或分类的技术,不需要显式地编程规则。
🔑 在图像挖掘中的作用:
-
图像分类(如猫狗识别、人脸识别)
-
图像目标检测(找到图中物体位置)
-
图像分割(将图像划分成不同区域)
-
特征降维(如主成分分析PCA)
📚 常用的机器学习方法:
-
监督学习:如KNN、SVM、决策树、随机森林、逻辑回归等
-
无监督学习:如K均值聚类、主成分分析(PCA)等
-
深度学习:基于神经网络(CNN)进行端到端学习,适用于大规模图像数据
💬 机器学习的模型训练,核心在于“数据 + 特征 + 算法”。
✅ 总结
图像挖掘是一门融合技术,需要掌握数字图像的基本知识。理解分辨率、图像深度、灰度、通道这些基础属性,有助于后续学习图像预处理、特征提取、分类与识别等更高级的图像挖掘任务。
同时,借助机器学习算法,图像中的隐藏知识才能真正被“挖掘”出来。
后续学习图像挖掘,就是在学习如何将机器学习的算法和思想,应用到图像数据上,解决各种视觉分析任务。具体来说,就是把机器学习里的模型(比如 SVM、KNN、神经网络等),用于图像的分类、识别、检测、分割等操作