这一节我们主要学习

  • 理解题意,运用回归实现PM2.5预测

1 任务描述 (Task Description)

预测丰原站下一个小时会观测到的PM2.5
中国台湾地图上黄点和绿点代表气象观测站的位置
黄色表示空气质量指标比较差
绿色表示空气质量指标比较好

2 介绍数据集

第 A 列是id:每一个id代表一个时间点;
第 B 列是各项指标;
第 K 列表示第 N-1 时的指标值。

3 机器学习第一步:定义你的模型

预测值y:A年B月C日 N时的PM2.5

输入值$x_{K,M}:$A年B月C日 N-K 时的 M 观测值

M = PM2.5,CH4, NO, NO2, O3 …(总共18种)

数据集中某些指标不是数值,比如RAINFALL = NR,该怎么表示呢?

  • 假设说PM2.5 仅与过去9个小时的PM2.5 相关,则:

$ y = b + w_{1,PM}·x_{1,PM}+ w_{2,PM}·x_{2,PM}+…+ w_{9,PM}·x_{9,PM}$

  • 假设说PM2.5 仅与过去5个小时的PM2.5 相关,则:

$ y = b + w_{1,PM}·x_{1,PM}+ w_{2,PM}·x_{2,PM}+…+ w_{5,PM}·x_{5,PM}$

  • 假设说PM2.5 与过去5个小时的PM2.5和N0,O3,… 相关,则:

\begin{aligned} y = b & + w_{1,PM}·x_{1,PM}+ w_{2,PM}·x_{2,PM}+…+ w_{5,PM}·x_{5,PM}
& + w_{1,NO}·x_{1,NO}+ w_{2,NO}·x_{2,NO}+…+ w_{5,NO}·x_{5,NO}
& + w_{1,O3}·x_{1,O3}+ w_{2,O3}·x_{2,O3}+…+ w_{5,O3}·x_{5,O3}
&…… \end{aligned}

4 机器学习第二步:根据训练集确定损失函数

训练集来自每个月的前20天;
测试集来自每个月的后10天;
从训练集中拿出一些数据集作为验证集(2:8/3:7)

5 机器学习第三步:找到最好的模型

采用梯度下降法找到最好的模型

线性代数正规方程求解与梯度下降法的解形成对比。