比赛给出的训练数据是CMIP5/6模式的历史模拟数据和美国SODA模式重建的近100多年历史观测同化数据。每个样本中都包含四种气象及时空变量:海表温度异常(SST)、热含量异常(T300)、纬向风异常(Ua)、经向风异常(Va)。每个数据的维度为(year, month, lat, lon)。 这样的数据描述对于非相关专业人士来说实在是一头雾水,但是工欲善其事必先利其器,要做好一个比赛我们首先要对给出的数据有一定的了解。
比赛给出的评估指标如下:
S
c
o
r
e
=
2
3
∗
a
c
c
s
k
i
l
l
−
R
M
S
E
Score = \frac{2}{3} * accskill - RMSE
Score=32∗accskill−RMSE 其中
a
c
c
s
k
i
l
l
=
∑
i
=
1
24
a
∗
l
n
(
i
)
∗
c
o
r
i
accskill = \sum_{i=1}^{24}a * ln(i) * cor_i
accskill=i=1∑24a∗ln(i)∗cori accskill是相关性技巧评分,是所预测的24个月的累计值。 其中,a是一个系数,在不同月份a的值是不同的(1-4月a的值为1.5,5-11月a的值为2,12-18月a的值为3,19-24月a的值为4),可以看出,a的值越往后越大,也就是说,模型所能准确预测的时间越长,分数就越高。 cori则是预测值与实际值的相关系数,其计算公式如下:
c
o
r
i
=
∑
(
X
−
X
m
e
a
n
)
(
Y
−
Y
m
e
a
n
)
∑
(
X
−
X
m
e
a
n
)
2
∑
(
Y
−
Y
m
e
a
n
)
2
cor_i = \frac{\sum(X-X_{mean})(Y-Y_{mean})}{\sqrt{\sum(X-X_{mean})^2\sum(Y-Y_{mean})^2}}
cori=∑(X−Xmean)2∑(Y−Ymean)2∑(X−Xmean)(Y−Ymean) 其中X为实际值,X_mean为24个月的实际值的均值,Y为预测值,Y_mean为24个月的预测值的均值。 RMSE是所预测的24个月的rmse的累计均方根误差值。 由此看来,提分的要点在于提高accskil,降低RMSE。