当前位置: 首页 > news >正文

时间序列:A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS

ICLR 2023 PatchTST (※※※)

摘要:

我们提出了一种高效的 Transformer 模型设计,用于多变量时间序列预测和自监督表示学习。该设计基于两个关键组件:(i)将时间序列划分为子序列级别的 patch,这些 patch 被作为输入 token 提供给 Transformer;(ii)通道独立性,即每个通道仅包含一个单变量时间序列,所有序列共享相同的嵌入层和 Transformer 权重。这种 patch 划分设计具有三方面的自然优势:能够在嵌入中保留局部语义信息;在相同的回溯窗口下,注意力图的计算和内存开销呈二次减少;模型可以关注更长的历史信息。 我们提出的通道独立 patch 时间序列 Transformer(PatchTST)在长期预测准确率上相较于当前最先进(SOTA)的 Transformer 模型有显著提升。我们还将该模型应用于自监督预训练任务,并在微调阶段取得了优异表现,甚至优于在大型数据集上进行的有监督训练。将经过掩码预训练的表示从一个数据集迁移到另一个数据集时,也能达到最先进的预测准确度。

论文地址:https://arxiv.org/pdf/2211.14730

代码地址:https://github.com/PatchTST/PatchTST

总结:

很厉害,

论文看不出来有多厉害。论文的话,跟iTransformer很相似,但是PatchTST更早。个人感觉iTransformer模仿了他的通道独立的点,实际上就是处理序列seq_len。只不过减少了计算量 用了这个patch的方法。

论文的结构也是比较清晰。 a图能看出来 这个方法是做的 通道独立。把每一维的时间数据通道隔开;b图就是对于每一个xi(第i个特征的输入)进行patch 变成 PxN(就是Patch-len * patch-Num) 这里的patch方式实现的也比较简单,然后进入后面的映射区和位置编码区,映射区的话实际上就是Linear 映射到d_model。 这里是把patch-len 映射为 d_model,然后进入transformer,最后进行flatten和linear head,实际上就是把 后两维 铺开,再linear 映射回 pred-len;c图的话就是利用自监督方式进行训练, 然后再通过微调 ,那预训练的话就需要把 后面的解码 换掉,换成输出掩码的 linear。

明天总结代码部分。

相关文章:

  • 【实战中提升自己】 防火墙篇之VPX部署–L2TP over IPSEC
  • CTF--eval
  • 控制反转(IoC)和依赖注入(DI)实现及常用注解
  • 怎样利用 macOS 自带功能快速进行批量重命名文件教程
  • 服务器内存规格详解
  • 饭店管理系统(下篇):程序打包为exe给用户使用
  • 2. kubernetes操作概览
  • Gradle相关配置文件的关系、作用及使用方式
  • 【时时三省】(C语言基础)选择结构程序设计习题1
  • Python异步编程入门:Async/Await实战详解
  • vector常用的接口和底层
  • AI对话高阶玩法:解锁模型潜能的实用案例教程
  • 消息中间件面试题
  • 开源TTS项目GPT-SoVITS,支持跨语言合成、支持多语言~
  • java面向对象06:封装
  • cmd 终端输出乱码问题 |Visual Studio 控制台输出中文乱码解决
  • Day08【基于预训练模型分词器实现交互型文本匹配】
  • 考研数据结构之树与二叉树的应用:哈夫曼树、哈夫曼编码与并查集
  • JavaWeb开发 Servlet底层 从概念到HTTP请求 到web服务器再到servlet
  • ROS2 常用
  • 海南一男子涨潮时赶海与同伴走散,警民协同3小时将其救上岸
  • 管理规模归零,华夏基金“ETF规模一哥”张弘弢清仓卸任所有产品
  • C909飞机开启越南商业运营
  • 在历史上遭到起诉的杀人动物记录中,为什么猪如此普遍?
  • 强对流+暴雨+大雾,中央气象台三预警齐发
  • 跨境电商敦煌网在美下载量飙升,如何接住美国用户的“流量”?