KDD Cup 2017 数据集分析
一、时空静态信息(只在训练集中出现,不随时间变化)
-
Table 3 – Road Link Properties(路段属性)
-
link_id:唯一标识一条路段(Link)。
-
length、width、lanes、lane_width:路段的几何属性。
-
in_top:这个路段的「上游」路段列表(用逗号分隔),即车辆从哪些路段进入本路段。
-
out_top:这个路段的「下游」路段列表,车辆从本路段可以到哪些路段。
-
用途:刻画整个区域内路网的拓扑结构,用来构建时空图或提取下游/上游特征。
-
-
Table 4 – Intersection–Tollgate Routes(路口到收费站的典型路径)
-
intersection_id:上游路口编号(例如 A、B、C)。
-
tollgate_id:目标收费站编号(1、2、3)。
-
link_seq:从该路口到该收费站所经过的路段序列(link_id 按行驶顺序用逗号连接)。
-
用途:每条路径是一条定长(约 5–10 段路)的 Link 序列,后续要把车辆的轨迹(Table 5)映射到哪条路径上,就靠它。
-
二、时变观测数据(训练集和测试集都有,按时间切分)
-
Table 5 – Vehicle Trajectories(车辆轨迹)
-
intersection_id、tollgate_id:标明这条记录对应的是哪对路口–收费站路径。
-
vehicle_id:车辆唯一标识。
-
starting_time:车辆进入该路径(第一个路段)的时间点。
-
travel_seq:详细的链路打点:
link_id#enter_time#travel_time(sec)
用“;”分割每一段打点。 -
travel_time:整条路径从路口到收费站的总耗时(秒)。
-
用途:可用来计算不同时间段、不同方向下的平均通行时间;也可提取分段耗时、分段速度等。
-
-
Table 6 – Traffic Volume(收费站车流量)
-
time:记录时间,按20 分钟为一个窗口(如 00:00–00:20、00:20–00:40……)。
-
tollgate_id:收费站编号。
-
direction:进站(0)或出站(1)。
-
vehicle_model、has_etc、vehicle_type:车的容量等级、是否 ETC、客货类型。
-
traffic_volume:该 20 分钟窗口内的车辆总数。
-
用途:这是做“短期车流量预测”最核心的目标变量。
-
-
Table 7 – Weather Data(天气)
-
date、hour:时间坐标,每 3 小时一条记录。
-
pressure、sea_pressure、wind_direction、wind_speed、temperature、rel_humidity、precipitation:常见气象指标。
-
用途:对车流量和通行时间都有潜在影响,可对齐到最近的半小时或小时窗口,作为外生特征。
-
三、表之间的关联方式
-
路径映射(Table 5 ⇄ Table 4)
-
每条轨迹(Table 5)都有 intersection_id、tollgate_id,两者完全对应 Table 4 中的一条
link_seq
。 -
通过比对
travel_seq
中的 link_id 列表与 Table 4 的link_seq
,确认该车辆跑的是哪条典型路径。
-
-
统计特征
-
平均通行时间:对同一条路口–收费站路径,在不同时间窗口内(如 20 分钟、1 小时),统计 Table 5 的
travel_time
均值、方差、分位数等。 -
细分路段速度:利用
travel_seq
中每段的travel_time
/ link length,计算下游路段拥堵情况(图神经网络或特征工程时可用)。
-
-
时序特征拼接(Table 6 + Table 7)
-
将 Table 6 的每个 20 分钟窗口对应到最近的一个或两个 Table 7 记录(如用前小时的天气指标)。
-
拼接后形成:time,tollgateid,direction,weather…,过去N窗口的trafficvolume、holidayflag、weekdayflag…time, tollgate_id, direction, weather…, 过去 N 窗口的 traffic_volume、holiday_flag、weekday_flag…,用于流量预测模型。
-
-
上下游空间特征(Table 3)
-
如果要做更精细的空间关联(如 GNN),可把每个收费站看作图节点,节点属性包括:临近路段的平均速度、上下游站点的历史流量等,边由 Table 3 的 in_top/out_top 决定。
-
四、典型预处理和建模流程示例
-
数据清洗
-
剔除节假日(尤其国庆 10‑01 至 10‑07)或单独建模。
-
对 Table 5 中丢失/异常
travel_time
做插值或过滤。 -
对天气数据做缺失值填充(前向/后向插值)。
-
-
特征工程
-
时序特征:小时、星期几、是否工作日/节假日、前 N 窗口流量/通行时间统计量。
-
空间特征:同一路口–收费站路径的历史平均通行时间;相邻路径的通行时间;上下游收费站流量。
-
外生特征:天气指标(温度、降水等)、车类型比例(ETC 占比、货车占比)。
-
-
模型训练
-
通行时间预测(任务 1):用 Table 5 构造样本,特征如上,对应标签为
travel_time
。 -
车流量预测(任务 2):用 Table 6+Table 7 构造样本,标签为
traffic_volume
。 -
可选模型:XGBoost/LightGBM、LSTM/TCN、图神经网络、集成学习等。
-
-
评估与上线
-
按官方给的测试集时间段(10‑18 至 10‑24)输出预测结果,计算 RMSE、MAPE 等指标。
-
如果要做实时系统,可把训练好的模型部署为在线接口,输入最新窗口的流量和天气,输出未来 N 窗口的预测。
-
这样一来,你就可以把整个数据集拆分成
“路网结构+路径映射+车辆轨迹+流量统计+天气”五大块
“静态结构 → 轨迹映射 → 特征提取 → 时空拼接 → 模型训练”