当前位置: 首页 > news >正文

2d深度预测

Depth anything v1

相对深度估计,要用绝对深度估计需要微调

概要:

1 使用大量的未标注图像信息
2 采用优化策略—数据增强工具(作用在未标注图像)
3 进行辅助监督—继承语义分割知识(作用在未标注图像)

数据层面:

1 通过已有标签的数据来训练一个MDE模型(称之为T模型)
2 未标签的数据通过T模型来生成伪标签
3 通过已有标签的数据和第2步中生成的伪标签数据,加上图片扰动(图片增强),来训练另一个MDE模型(称之为S模型)

具体扰动方法:一种是强烈的色彩失真,包括色彩抖动和高斯模糊,另一种是强烈的空间失真,即CutMix(yolov5用到的)

模型层面:

不使用辅助的语义分割任务结果,而是使用语义分割的预训练encoder(比如DINO v2),通过特征对齐损失保持语义

可能的原因:语义分割的label是离散的整数,值的含义表示的是整数的类别。 深度估计的结果是连续的,值的含义表示的是像素点的深度回归值。 此时用语义分割的Label的离散值去辅助深度估计的连续值,可能就不这么合理

encoder为DINO v2,semantic preservation为语义特征对齐损失,unlabeled的sup是S模型cutmix的损失

Depth anything v2

1 用合成图像替代所有标注的真实图像:真实图像中的标签存在粗略的情况;虽然合成图像可以提供高质量的深度标签,但它们与真实世界的图像之间存在分布上的差异。为了解决这一问题,研究团队采取了两方面的策略:一是通过增加合成数据的规模来提高其多样性;二是引入了大规模未标记的真实图像,并利用强大的教师模型为这些图像生成伪标签,以作为学生模型训练的数据来源

2 扩大教师模型的容量:选择DINO v2-G作为教师模型

3 通过大规模伪标注的真实图像桥接训练学生模型

Depth pro

突破性的在网络中添加了一个焦距估计头。一个小的卷积头从深度估计网络中提取冻结的特征和从单独的ViT图像编码器中提取的特征来预测水平角度视图的焦距。深度估计训练完成后,再对焦距头和ViT编码器进行训练,避免了深度和焦距训练目标平衡的必要性,还允许在不同数据集上训练焦距头

双ViT编码器并行结构,一个编码器来进行全局信息的抽取,一个编码器来处理多分辨率的图像块获取不同尺度的局部细节,所以很快

通过两阶段的训练策略,先用混合了真实数据与合成数据的数据集进行模型泛化能力的学习,保证不同场景统一深度下目标能输出一致的结果。然后再用高精度的合成数据优化模型的细节能力,获得高精度的边界

相关文章:

  • MQ基础篇
  • 深度学习3.1 线性回归
  • 前端基础之《Vue(6)—组件基础(2)》
  • 1.Linux基础指令
  • MATLAB 控制系统设计与仿真 - 37
  • Linux:命令行参数、环境变量
  • [经验总结]Linux双机双网卡Keepalived高可用配置及验证细节
  • 大数据赋能,全面提升‘企业服务平台’实际效能!
  • 浏览器的存储机制 - Storage
  • NO.97十六届蓝桥杯备战|数论板块-最大公约数和最小公倍数|欧几里得算法|秦九韶算法|小红的gcd(C++)
  • 爬虫学习——Scrapy
  • Java编程语言 1.打印数组元素 2.Student类 StudentTest类
  • 【go】什么是Go语言中的GC,作用是什么?调优,sync.Pool优化,逃逸分析演示
  • alertManager部署安装、告警规则配置详解及告警消息推送
  • 华为openEuler操作系统全解析:起源、特性与生态对比
  • 机器学习模型(2/4课时):损失函数
  • 深度学习中的卷积神经网络
  • 命令行工具kubectl
  • 密码学中的盐值是什么?
  • RAII资源管理理解
  • 马上评|治理“龟速车”,也是一次驾驶文明的升级
  • 农业未来十年展望:预计粮食单产水平将提高7.8%,达到421千克/亩
  • 北理工再通报:开除宫某党籍,免去行政职务,解除聘用关系
  • 数智时代出版专业技能人才培养研讨会在沪举行
  • 建投读书会·东西汇流|西风东渐中的上海营造
  • 人民日报读者点题·共同关注:今天,我们需要什么样的企业家?