当前位置: 首页 > news >正文

论文阅读笔记——ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping

ZeroGrasp 论文
多视角重建计算大、配置复杂,本文将稀疏体素重建(快且效果好)引入机器人抓取且只考虑单目重建,通过利用基于物理的接触约束与碰撞检测(这对精确抓取至关重要),提升三维重建质量将直接改善抓取位姿预测。
在这里插入图片描述

表征

  • 三维表征:
    采用八叉树作为基础表征形式,在最深层级存储SDF法向量图像特征抓取位姿,可表示为最深层体素中心点 p 与对应图像特征 f 构成的元组: x = ( p , f ) , p ∈ R ( N × 3 ) , f ∈ R ( N × D ) x=(p,f),\quad p\in R^{(N×3)}, f\in R^{(N×D)} x=(p,f),pR(N×3),fR(N×D) 其中 N 为体素数量。(相较于点云,八叉树结构支持高效的深度优先搜索与递归八分空间划分,较低内存与计算成本)。
  • 抓取位姿表征:
    与 GraspNet 一致的平行二指夹爪模型(6D 位姿参数):表征抓取位置鲁棒性的视角抓取度评分 s ∈ R M s\in R^M sRM;基于力闭合算法计算的抓取质量 q ∈ R M q\in R^M qRM;视角方向 v ∈ R 3 M v\in R^{3M} vR3M ;夹爪角度 a ∈ R M a\in R^M aRM;开合宽度 w ∈ R M w\in R^M wRM;进深 d ∈ R M d\in R^M dRM g = ( s q v a w d ) g=\begin{pmatrix}s&q&v&a&w&d\end{pmatrix} g=(sqvawd) 其中 M 表示目标八叉树中抓取位姿总数,为每个点分配 5mm 半径内最近邻抓取位姿(若无则设抓取度为0)。由此得到八叉树的最终定义 y = ( p g t , f g t ) = ( p g t , [ ϕ , n , g ] ) y=(p^{gt},f^{gt})=(p^{gt},[\phi,n, g]) y=(pgt,fgt)=(pgt,[ϕ,n,g]) 其中 ϕ ∈ R M \phi \in R^M ϕRM 是 SDF(有向距离场), n ∈ R M n \in R^M nRM 是法向量场。
    特征提取:对于 RGB 图像 I ∈ R H × W × 3 I\in R^{H×W×3} IRH×W×3 进行编码得到图像特征 W,微调 SAM-2 生成 2D Mask ∈ R H × W \in R^{H×W} RH×W ,利用反投影函数 π − 1 \pi^{-1} π1 将图像特征转换为 3D 点云空间: ( q i , w i ) = π − 1 ( W , D , K , M i ) (q_i,w_i)=\pi^{-1}(\boldsymbol{W},\boldsymbol{D},\boldsymbol{K},\boldsymbol{M_i}) (qi,wi)=π1(W,D,K,Mi) 其中 D 为深度图,K 为相机内参,得到 x i = ( p i , f i ) = G ( q i , w I ) x_i=(p_i,f_i)=G(q_i,w_I) xi=(pi,fi)=G(qi,wI)

CVAE

单视角观测(如一张RGB-D图像)无法确定物体被遮挡部分的形状,传统方法输出单一结果可能不准确。CVAE通过潜在变量(latent code)建模形状的多种可能性。
3D形状和抓取姿态的潜在表示建模为对角高斯分布。编码器 ϵ ( z i ∣ x i , y i ) \epsilon(z_i|x_i,y_i) ϵ(zixi,yi) 基于输入八叉树 x i \boldsymbol{x}_i xi 和真实标签 y i \boldsymbol{y}_i yi 预测潜在编码 z i \mathcal{z}_i zi ;先验分布 P ( ℓ i , z i ∣ x i ) \mathcal{P}(\ell_i,\mathcal{z}_i|x_i) P(i,zixi) 生成潜在特征 ℓ i ∈ R N i ′ × D ′ \ell_i \in \mathbb{R}^{N_i^{'}×D^{'}} iRNi×D ,其中潜在编码通过重参数化从预测的均值和方差中采样;解码器 D ( y i ∣ ℓ i , z i , x i ) \mathcal{D}(\boldsymbol{y}_i|\ell_i,\mathcal{z}_i,\boldsymbol{x}_i) D(yii,zi,xi) 预测 3D 重建结果及抓取姿态。

  • 多目标编码器:由于传统先验模型 P 只能为每个目标单独计算特征,无法考虑空间布局。引入 K 个 RoPE 编码的 Transformer
  • 3D occlusion fields:通过细分体素和设置遮挡标志,将复杂的全局遮挡问题分解为局部问题,并通过 3D CNN 编码遮挡信息,最终整合到目标特征中。
  • 损失函数 L r e c = ω o c c ∑ h H L o c c h + ω n r m L n r m + ω S D F L S D F L g r a s p = ω s L s + ω q L q + ω a L a + ω w L w + ω d L d L K L = ω K L D K L ( E ( z i ∣ x i , y i ) ∥ P ( ℓ i , z i ∣ x i ) ) L = L r e c + L g r a s p + L K L \begin{gathered} \mathcal{L}_{\mathrm{rec}}=\omega_{\mathrm{occ}}\sum_{h}^{H}\mathcal{L}_{\mathrm{occ}}^{h}+\omega_{\mathrm{nrm}}\mathcal{L}_{\mathrm{nrm}}+\omega_{\mathrm{SDF}}\mathcal{L}_{\mathrm{SDF}} \\ \mathcal{L}_{\mathrm{grasp}}=\omega_{\mathrm{s}}\mathcal{L}_{\mathrm{s}}+\omega_{\mathrm{q}}\mathcal{L}_{\mathrm{q}}+\omega_{a}\mathcal{L}_{\mathrm{a}}+\omega_{\mathrm{w}}\mathcal{L}_{\mathrm{w}}+\omega_{\mathrm{d}}\mathcal{L}_{\mathrm{d}} \\ \mathcal{L}_{\mathrm{KL}}=\omega_{\mathrm{KL}}D_{\mathrm{KL}}\left(\mathcal{E}\left(\mathbf{z}_{i}\mid\mathbf{x}_{i},\mathbf{y}_{i}\right)\|\mathcal{P}\left(\ell_{i},\mathbf{z}_{i}\mid\mathbf{x}_{i}\right)\right)\\ \mathcal{L}=\mathcal{L}_{\mathrm{rec}}+\mathcal{L}_{\mathrm{grasp}}+\mathcal{L}_{\mathrm{KL}} \end{gathered} Lrec=ωocchHLocch+ωnrmLnrm+ωSDFLSDFLgrasp=ωsLs+ωqLq+ωaLa+ωwLw+ωdLdLKL=ωKLDKL(E(zixi,yi)P(i,zixi))L=Lrec+Lgrasp+LKL

抓取姿态优化

利用重建结果来优化预测的抓取姿态。首先检测抓取器左右指端在重建模型上的最近接触点 c L c_L cL c R c_R cR,通过调整抓取宽度 w 和深度 d 确保指端与物体接触: Δ w = min ⁡ ( D ( c L ) , D ( c R ) ) , w ← w + 2 ( max ⁡ ( γ min ⁡ , min ⁡ ( Δ w , γ max ⁡ ) ) − Δ w ) d ← max ⁡ ( Z ( c L ) , Z ( c R ) ) , \begin{aligned} & \Delta w=\operatorname*{min}(D(c_{L}),D(c_{R})), \\ & w\leftarrow w+2\left(\max(\gamma_{\min},\min(\Delta w,\gamma_{\max}))-\Delta w\right) \\ & d\leftarrow\max(Z(c_L),Z(c_R)), \end{aligned} Δw=min(D(cL),D(cR)),ww+2(max(γmin,min(Δw,γmax))Δw)dmax(Z(cL),Z(cR)),
其中,D© 表示接触点 c 的距离,Δw 表示接触距离, γ m i n \gamma_{min} γmin γ m a x \gamma_{max} γmax​ 是预设的最小和最大接触距离,这确保了接触距离 Δw 保持在 γ m i n \gamma_{min} γmin γ m a x \gamma_{max} γmax 的范围内。

  • 碰撞检测:基于重建模型实现无模型碰撞检测,替代传统基于局部点云的方法(无法处理遮挡区域碰撞)。通过检测抓取器与重建模型的相交情况,剔除存在碰撞的抓取姿态

实验结果

在这里插入图片描述
在这里插入图片描述

相关文章:

  • 【SAM2代码解析】training部分代码详解-训练流程
  • 基准指数选股策略思路
  • 从代码学习深度学习 - 微调 PyTorch 版
  • 工业相机——镜头篇【机器视觉,图像采集系统,成像原理,光学系统,成像光路,镜头光圈,镜头景深,远心镜头,分辨率,MTF曲线,焦距计算 ,子午弧矢】
  • BeeWorks Meet:私有化部署视频会议的高效选择
  • 【Linux】进程优先级和进程切换
  • 张 LLM提示词拓展16中方式
  • 线上图书借阅小程序源码介绍
  • 关于使用git init --bare 裸仓库的使用
  • 如何在奥维互动地图里加载星图云卫星地图
  • SiamFC 算法详解
  • Shell脚本-流程控制语句应用案例
  • 龙虎榜——20250425
  • Jsp技术入门指南【十】IDEA 开发环境下实现 MySQL 数据在 JSP 页面的可视化展示,实现前后端交互
  • Python编程的真谛:超越语法,理解编程本质
  • 【金仓数据库征文】- 金融HTAP实战:KingbaseES实时风控与毫秒级分析一体化架构
  • mapbox高阶,使用本地dem数据、等高线面数据实现千里江山图效果
  • 如何建立员工培训体系?
  • Ollama 常见命令速览:本地大模型管理指南
  • 六、web自动化测试02
  • 四川:全省统一取消普通住宅和非普通住宅标准
  • 解码人格拼图:探索心理健康的多维视角
  • 讲座预告|大国博弈与创新破局:如何激励中国企业创新
  • 南方医科大学原副校长宁习洲主动投案,接受审查调查
  • 对话地铁读书人|超市营业员朱先生:通勤时间自学心理学
  • 厦门国贸去年营收约3544亿元,净利润同比减少67.3%