当前位置: 首页 > news >正文

论文阅读HARIVO: Harnessing Text-to-Image Models for Video Generation

h-space对比损失(DC)的设计细节

目标:确保视频的所有帧在语义上保持一致(例如,同一视频中的不同帧应描述相同的主体和场景,避免物体突变或语义漂移)。

1. h-space的定义
  • h-space 是U-Net最深层的特征空间(bottleneck feature),已有研究表明它包含高层语义信息(如物体类别、场景结构),且对噪声步长(timestep)不敏感。
  • 论文假设:同一视频的所有帧在h-space中应彼此接近,而不同视频的帧应远离。
2. 损失函数设计(Decoupled Contrastive Loss)

采用解耦对比损失(Decoupled Contrastive Loss, DC),具体步骤如下:

  1. 正负样本构建

    • 正样本对:从同一视频中随机采样两帧,提取它们的h-space特征(记为 ( h ( 1 ) , h ( 2 ) \mathbf{h}^{(1)}, \mathbf{h}^{(2)} h(1),h(2)))。
    • 负样本队列:维护一个队列 ( Q ),存储其他视频的h-space特征作为负样本(动态更新)。
  2. 特征投影

    • 通过一个轻量级投影头 ( g θ ( g_\theta (gθ)(训练后丢弃),将h-space特征映射到低维空间:
      [ z = g θ ( h ) [\mathbf{z} = g_\theta(\mathbf{h}) [z=gθ(h)]
    • 目的是增强特征的判别性(类似SimCLR)。
  3. 损失计算

    • 对正样本对 ( ( z ( 1 ) , z ( 2 ) ) ( (\mathbf{z}^{(1)}, \mathbf{z}^{(2)}) ((z(1),z(2))),最小化它们的距离;对负样本 ( z ( q ) ∈ Q ( \mathbf{z}^{(q)} \in Q (z(q)Q),最大化距离。
    • 公式:
      [ L DC = − ⟨ z ( 1 ) , z ( 2 ) ⟩ τ + log ⁡ ∑ q ∈ Q exp ⁡ ( ⟨ z ( 1 ) , z ( q ) ⟩ τ ) [L_{\text{DC}} = -\frac{\langle \mathbf{z}^{(1)}, \mathbf{z}^{(2)} \rangle}{\tau} + \log \sum_{q \in Q} \exp\left(\frac{\langle \mathbf{z}^{(1)}, \mathbf{z}^{(q)} \rangle}{\tau}\right) [LDC=τz(1),z(2)+logqQexp(τz(1),z(q))]
      其中 ( τ = 0.1 ( \tau=0.1 (τ=0.1) 是温度系数, ( ⟨ ⋅ , ⋅ ⟩ ( \langle \cdot, \cdot \rangle (⟨,) 表示余弦相似度。
3. 关键设计动机
  • 解耦对比损失:相比传统对比损失(如InfoNCE),DC损失分离了正负样本的计算,缓解了负样本数量对梯度的影响,提升训练稳定性。
  • 非连续帧采样:正样本不限于相邻帧,因为h-space主要编码语义(而非运动细节),允许更大的时间跨度采样。
4. 实际效果
  • 通过约束h-space的一致性,模型能生成语义连贯的视频(如物体身份、场景布局稳定)。
  • 结合其他损失(如TRS损失),共同解决时间一致性问题。
伪代码示例
# 假设 h1, h2 是同一视频的两帧特征,queue 是负样本队列  
z1, z2 = projection_head(h1), projection_head(h2)  # 投影到低维空间  
pos_sim = torch.cosine_similarity(z1, z2, dim=-1)  # 正样本相似度  
neg_sims = torch.mm(z1, queue.t()) / temperature    # 负样本相似度  
loss = -pos_sim + torch.logsumexp(neg_sims, dim=-1)  

总结:DC损失通过对比学习显式约束视频帧的语义一致性,是HARIVO模型实现时间连贯性的核心组件之一。

相关文章:

  • 【论文速递】2025年06周 (Robotics/Embodied AI/LLM)
  • 随机过程,相关函数的一个例题|柯尔莫哥洛夫存在定理
  • 17.整体代码讲解
  • 动态规划-零钱兑换
  • 自动驾驶最新算法进展
  • (二十九)安卓开发中DataBinding 和 ViewBinding详解
  • Ubuntu 系统下安装和使用性能分析工具 perf
  • 人工智能在慢病管理中的具体应用全集:从技术落地到场景创新
  • Uniapp:创建项目
  • flutter 专题 六十六 Flutter Dio包网络请求抓包解决方案
  • 《马尼拉》桌游期望计算器
  • 240422 leetcode exercises
  • 2025高频面试算法总结篇【其他】
  • ADB->查看某个应用的版本信息
  • 性能比拼: Nginx vs Apache
  • vdso内核与glibc配合的相关逻辑分析
  • IDEA打不开、打开报错
  • 【Easylive】手动实现分布式事务解决方案流程解析
  • 【Flask】Explore-Flask:早期 Flask 生态的实用指南
  • 多模态大语言模型arxiv论文略读(三十三)
  • 机器人马拉松背后的五大启示:未来社会与机器人的深度融合
  • 根据学习教育安排,上海市委中心组专题学习总书记力戒形式主义官僚主义重要论述
  • 第1现场|俄乌互指对方违反复活节临时停火提议
  • 韩国新一届总统选举将于6月3日举行,民调显示李在明继续领跑
  • 大尺度色情语聊、撮合卖淫嫖娼!一些交友软件暗藏“桃色陷阱”
  • 廊坊市长:健全依法决策和决策纠错机制,把群众满意作为工作准绳