当前位置: 首页 > news >正文

KDD Cup 2017 数据集分析


一、时空静态信息(只在训练集中出现,不随时间变化)

  1. Table 3 – Road Link Properties(路段属性)

    • link_id:唯一标识一条路段(Link)。

    • length、width、lanes、lane_width:路段的几何属性。

    • in_top:这个路段的「上游」路段列表(用逗号分隔),即车辆从哪些路段进入本路段。

    • out_top:这个路段的「下游」路段列表,车辆从本路段可以到哪些路段。

    • 用途:刻画整个区域内路网的拓扑结构,用来构建时空图或提取下游/上游特征。

  2. Table 4 – Intersection–Tollgate Routes(路口到收费站的典型路径)

    • intersection_id:上游路口编号(例如 A、B、C)。

    • tollgate_id:目标收费站编号(1、2、3)。

    • link_seq:从该路口到该收费站所经过的路段序列(link_id 按行驶顺序用逗号连接)。

    • 用途:每条路径是一条定长(约 5–10 段路)的 Link 序列,后续要把车辆的轨迹(Table 5)映射到哪条路径上,就靠它。


二、时变观测数据(训练集和测试集都有,按时间切分)

  1. Table 5 – Vehicle Trajectories(车辆轨迹)

    • intersection_id、tollgate_id:标明这条记录对应的是哪对路口–收费站路径。

    • vehicle_id:车辆唯一标识。

    • starting_time:车辆进入该路径(第一个路段)的时间点。

    • travel_seq:详细的链路打点:link_id#enter_time#travel_time(sec) 用“;”分割每一段打点。

    • travel_time:整条路径从路口到收费站的总耗时(秒)。

    • 用途:可用来计算不同时间段、不同方向下的平均通行时间;也可提取分段耗时、分段速度等。

  2. Table 6 – Traffic Volume(收费站车流量)

    • time:记录时间,按20 分钟为一个窗口(如 00:00–00:20、00:20–00:40……)。

    • tollgate_id:收费站编号。

    • direction:进站(0)或出站(1)。

    • vehicle_model、has_etc、vehicle_type:车的容量等级、是否 ETC、客货类型。

    • traffic_volume:该 20 分钟窗口内的车辆总数。

    • 用途:这是做“短期车流量预测”最核心的目标变量。

  3. Table 7 – Weather Data(天气)

    • date、hour:时间坐标,每 3 小时一条记录。

    • pressure、sea_pressure、wind_direction、wind_speed、temperature、rel_humidity、precipitation:常见气象指标。

    • 用途:对车流量和通行时间都有潜在影响,可对齐到最近的半小时或小时窗口,作为外生特征。


三、表之间的关联方式

  1. 路径映射(Table 5 ⇄ Table 4)

    • 每条轨迹(Table 5)都有 intersection_id、tollgate_id,两者完全对应 Table 4 中的一条 link_seq

    • 通过比对 travel_seq 中的 link_id 列表与 Table 4 的 link_seq,确认该车辆跑的是哪条典型路径。

  2. 统计特征

    • 平均通行时间:对同一条路口–收费站路径,在不同时间窗口内(如 20 分钟、1 小时),统计 Table 5 的 travel_time 均值、方差、分位数等。

    • 细分路段速度:利用 travel_seq 中每段的 travel_time / link length,计算下游路段拥堵情况(图神经网络或特征工程时可用)。

  3. 时序特征拼接(Table 6 + Table 7)

    • 将 Table 6 的每个 20 分钟窗口对应到最近的一个或两个 Table 7 记录(如用前小时的天气指标)。

    • 拼接后形成:time,tollgateid,direction,weather…,过去N窗口的trafficvolume、holidayflag、weekdayflag…time, tollgate_id, direction, weather…, 过去 N 窗口的 traffic_volume、holiday_flag、weekday_flag…,用于流量预测模型。

  4. 上下游空间特征(Table 3)

    • 如果要做更精细的空间关联(如 GNN),可把每个收费站看作图节点,节点属性包括:临近路段的平均速度、上下游站点的历史流量等,边由 Table 3 的 in_top/out_top 决定。


四、典型预处理和建模流程示例

  1. 数据清洗

    • 剔除节假日(尤其国庆 10‑01 至 10‑07)或单独建模。

    • 对 Table 5 中丢失/异常 travel_time 做插值或过滤。

    • 对天气数据做缺失值填充(前向/后向插值)。

  2. 特征工程

    • 时序特征:小时、星期几、是否工作日/节假日、前 N 窗口流量/通行时间统计量。

    • 空间特征:同一路口–收费站路径的历史平均通行时间;相邻路径的通行时间;上下游收费站流量。

    • 外生特征:天气指标(温度、降水等)、车类型比例(ETC 占比、货车占比)。

  3. 模型训练

    • 通行时间预测(任务 1):用 Table 5 构造样本,特征如上,对应标签为 travel_time

    • 车流量预测(任务 2):用 Table 6+Table 7 构造样本,标签为 traffic_volume

    • 可选模型:XGBoost/LightGBM、LSTM/TCN、图神经网络、集成学习等。

  4. 评估与上线

    • 按官方给的测试集时间段(10‑18 至 10‑24)输出预测结果,计算 RMSE、MAPE 等指标。

    • 如果要做实时系统,可把训练好的模型部署为在线接口,输入最新窗口的流量和天气,输出未来 N 窗口的预测。


这样一来,你就可以把整个数据集拆分成

“路网结构+路径映射+车辆轨迹+流量统计+天气”五大块

“静态结构 → 轨迹映射 → 特征提取 → 时空拼接 → 模型训练”

相关文章:

  • 快速定位达梦缓存的执行计划并清理
  • HTML页面结构最佳实践方案
  • Phyton简介与入门
  • TextCNN 模型文本分类实战:深度学习在自然语言处理中的应用
  • DeepSeek开源引爆AI Agent革命:应用生态迎来“安卓时刻”
  • 【Qt】QDialog类
  • PyTorch 多 GPU 入门:深入解析 nn.DataParallel 的工作原理与局限
  • 帕金森发病类型和阶段
  • 安徽京准:关于石油管道监控NTP时间同步服务器方案
  • 基于外部中中断机制,实现以下功能: 1.按键1,按下和释放后,点亮LED 2.按键2,按下和释放后,熄灭LED 3.按键3,按下和释放后,使得LED闪烁
  • WebRTC服务器Coturn服务器用户管理和安全性
  • PLOG安装
  • 掌握Prisma数据建模:从基础关系到高级技巧
  • 从零开始搭建你的个人博客:使用 GitHub Pages 免费部署静态网站
  • 乐视系列玩机---乐视2 x520 x528等系列线刷救砖以及刷写第三方twrp 卡刷第三方固件步骤解析
  • OpenCV中的透视变换方法详解
  • 【AI模型学习】Swin Transformer——优雅的模型
  • 图像预处理-直方图均衡化
  • WebRTC服务器Coturn服务器的管理平台功能
  • 再次理解 瓦瑟斯坦距离(Wasserstein Distance)
  • 宁德时代与广汽等五车企发布10款巧克力换电新车型:年内将完成30城1000站计划
  • 北京市交通委通报顺平路潮白河大桥事故直接原因
  • 舞剧《百合花》7月绽放,王安忆:这是送给母亲的一份礼物
  • 山东省检察院答澎湃:惩治网络售假,强化“全链条”刑事打击
  • 南北皆宜的“中国酒都”宿迁:下一程如何更“醇厚绵长”
  • 上海优化餐企发展环境:装修拓展门店最高奖50万,建立问题协调机制