需要的同学私信联系,推荐关注上面图片右下角的订阅号平台 自取下载。

简要介绍一下GEFCom,全球电力能源预测竞赛(GEFCom)由IEEE PES的电力能源预测工作组(IEEE PES Working Group on Energy Forecasting)主席洪韬(Hong Tao)发起,获得IEEE Power & Energy Society资助,一经举办就获得学术界和工业界的广泛关注与参与,是国际上规模最大、影响力最大的电力能源预测竞赛。参赛的机构包括斯坦福大学(Stanford)、牛津大学(Oxford)、卡内基梅隆大学(Carnegie Mellon University,CMU)等国际著名大学,也包括法国电力公司(Electricite De France, EDF)等国际大企业,还有来自美国硅谷非常著名的大数据竞赛平台kaggle上排名前列的大数据专家等。

GEFCom全球能源预测数据集包含3个部分:

第1部分为GEFCom 2012 Dataset,由负荷数据集风电数据集2个子数据集组成;

第2部分为GEFCom 2014 Dtaset,GEFCom 2014的主题是电力系统概率性预测,共分为负荷预测、电价预测、风电预测以及光伏预测4个子竞赛单元,因此GEFCom 2014 Dataset由GEFCom2014-Load、GEFCom2014-Price、GEFCom2014-Wind和GEFCom2014-Solar这4个子数据集组成;

第3部分为GEFCom 2017 Dataset,由排位赛使用的美国新英格兰地区的各个区域和区域总负荷数据集和决赛使用的美国公用事业公司400+配送点的电力负荷数据集组成。在百度学术和谷歌学术上已经能搜索到基于这些数据集的大量已发表论文,小小剧透一下,下一期推送预计是基于该数据集的优秀论文集。

01

GEFCom 2012 Dataset

Load Forecasting

负荷预测赛道的主题是一个层级负荷预测问题:对具有20个区域的美国公用事业公司的回测和预测小时级别负荷(以kW为单位)。必须在区域级别(20系列)和系统(20个区域级系列的总和)水平上进行回测和预测,总共21个目标量。

数据(12个区域的负载和11个站点的温度)历史范围从2004/1/1的第一小时到2008/6/30的第6小时。考虑到实际温度历史记录,负荷历史记录下面的8周将丢失,并需要对其进行回测,可以使用整个历史记录这8周:2005/3/6-2005/3/12、2005/6/20-2005/6/26、2005/9/10-2005/9/16、2005/12/25-2005/12/31、2006/2/13-2006/2/19、2006/5/25-2006/5/31、2006/8/2-2006/8/8、2006/11/22-2006/11/28。此外还需要预测2008/7/1至2008/7/7的每小时负荷目标量,在这周是没有实际温度可供使用。

预测精度将通过加权根平方误差进行评估。权重分配如下:

Zonal级别的8个回测周的每个小时:1;

在系统级别上的8个回测周的每个小时:20;

每个小时的一个预测一周的Zonal级别:8;

在系统级别上的1个预测周的每个小时:160;

在数据集的5个数据文件中的每个文件中,都有一个标题行。日期变量的三列:每月的年度,每日月份,最后24列是一天中的24小时。在load_history.csv中,A列为Zone_ID范围从1到20。在deverion_history.csv中,A列IS stit_ID范围从1到11。在benchmark.csv中,a列是id,每行的标识符;B列是区域_ID,范围从1到21,其中21个“区域”代表系统级别,这是其他20个区域的总和,Benchmark.csv为基准模型的结果。

Wind Forecasting

风电预测赛道的主题是基于历史测量和其他风预测信息(基于历史测量值和其他风能预测信息(48小时的风速预测,预测78小时的小时发电量(预测48小时)的主题(预测了48小时的风速预测,对这些地点的风速和方向预测 )。该数据可用于周期,范围从2009/7/1的第1小时到2012/6/28的第12小时。

2009/7/1至2010/12/31之间的期限是模型训练和验证期,而数据集的其余时间(即2011/1/1到2012/6/28)都需要进行评估。根据过去的电力观测和/或此期间的气象风预测,该训练期用于设计和估算允许在提前1到48小时预测风电的模型。在评估部分中,它旨在模仿实际的操作条件。为此,定义的48小时期间,缺少风电实际观测。所有这些功率观测都将被预测。

因此预测时段定义为:缺少观测的第一阶段是,从2011/1/1 01:00到2011/1/3 00:00;缺少观察的第二阶段是,从2011/1/4 13:00到2011/1/6 12:00。请注意,这两个时期每7天重复一次直到数据集末尾,在缺少数据的日期之间可以使用观测数据来更新模型。

预测精度将通过均方根误差(RMSE)标准评估,RMSE被计算为平方预测误差平均值的平方根,所有预测点将在得分计算中被赋予相同权重。

“train.csv”包含训练数据:

- 第1列(“日期”)是一个时间戳,给出了以下列中每小时风电测量的日期和时间。例如,“2009070812”是指2009年7月8日12:00;

- 其它7列(“wp1”至“wp7”)收集了7个风电场的归一化风电测量值。它们被归一化,以便取0和1之间的值,以使风电场不可识别。

同时,也提供使用解释变量(风力预报)的文件。例如,文件“windforecasts_wf1”包含风电场1的风力预测。在这些文件中:

- 第1列(“日期”)是一个时间戳,给出发布预测的日期和时间。例如,“2009070812”是指2009年7月8日12:00;

-第2列(“hors”)用于预测的交付周期。例如,如果“date”=2009070812,“hors”=1,则预测为2009年7月8日13:00

- 其它4列(“u”、“v”、“ws”和“wd”)是预报本身,前两列是纬向风和经向风分量,后两列是相应的风速和风向。

文件“benchmark.csv”提供了示例预测结果(“所见即所得”),该文件提供了一个应严格遵守的结果提交模板。“benchmark.csv”的第一列称为“id”,每行都包含唯一的标识符。其他8列与“train.csv”相同。在提交结果时,需要确保文件包含与“benchmark.csv”相同格式的总共9列。

02

GEFCom 2014 Dataset

回顾GEFCom2012,其中一个成功因素是互动比赛平台,参赛者可以在这里相互交流其他以及与比赛组织者。赛事方决定以在构建GEFCom2014时保持这一关键功能。同时,升级了三个新的功能:

1、概率预测主题,以更好地捕捉现代电网中的不确定性;

2、4大赛道,电力负荷预测(GEFCom2014-Load),电价(GEFCom2014-Price),以及风能(GEFCom2014-Wind)和太阳能(GEFCom2014-Solar)功率;

3、滚动预测,每周发布未来15周增量预报数据,模仿真实世界预测过程。

Load Forecasting

GEFCom2014-Load的目的是在滚动的基础上预测美国公用事业的小时级别负荷分位数,预测期为一个月。数据集提供了公用事业的每小时历史负荷和天气数据。除了比赛提供的数据外,还被允许使用美国联邦假日信息。

第一份数据包括69个月的小时负荷数据(2005年1月至2010年9月)和117个月的每小时天气数据(2001年1月到2010年9月份)。第二次数据发布开始,每周向参赛者提供一个月的小时负荷和天气数据,作为前一周的解决方案。负荷预测赛道共涉及11年的天气数据和5年的负荷数据。

Price Forecasting

GEFCom2014-Price的目的是在滚动的基础上预测一个地区的电价概率分布(分位数)。预测期为24小时,提供了每小时的数据,包括边际价格、区域负荷预测和系统负荷预测。

发布的第一份数据包括大约2.5年的小时价格、区域和系统负荷预测数据(从2011年1月1日到2013年6月15日),以及第二天(2013年6日16日)的区域和系统负载预测,参赛者被要求预测价格。与其他三条赛道不同的是,每项任务的预测起点都向前移动,价格预测赛道的设置是为了让参赛者使用每个预测期之前的历史数据预测接下来的几天。总的来说,价格预测轨迹涉及大约三年的位置边际价格、区域和系统负荷预测数据(2011年1月1日至2013年12月17日)。

Wind Forecasting

GEFCom2014-Wind的目标是预测10个区域的风力发电24小时,这是滚动的10个区域,对应于澳大利亚的10个风电场。在GEFCom2014期间,这10个风电场的位置未披露。每天午夜每天都会发布新的预测。由于每个任务的预测期限为一个月,因此这15个任务中的每项都需要为每个区域发布28-31 24小时的预测。预测应以99个分位数的形式表达,其标称比例在0到1之间。

预测因素包括从欧洲中型天气预报(ECMWF)获得的两个高度,10和100 m的风预测。这些预测是针对区域和风矢量分量(表示U和V),即分别在西方和南北轴上的风矢量的投影。根据这些风电场的确切位置提供了预测,每天午夜每天发布,提前24小时每小时的预报分辨率。天气预报可用于训练,也可以作为用于预测评估的各种任务的输入。此外,数据还提供了一个小时分辨率的各个风电场的发电量实测,但数据仅包含训练期间。

Solar Forecasting

 GEFCOM2014中的概率太阳能预测赛道与上述的风能预测赛道非常相似。在GEFCOM2014期间,这些太阳能发电厂的确切位置未披露。预测将在每天午夜发布。由于每个任务的预测期为一个月,因此为这15个任务中的每一个都发布了28-31个预测系列。预测应以99个分位数的形式表达,其名义比例在0和1之间。

可用的数据包括从欧洲中型天气预报中心(ECMWF)获得的12个天气变量的天气预报,可以根据所有这些变量自由执行变量选择,并/或生成和选择新功能。对太阳能发电厂的确切位置进行预测,并在午夜每天发布预测结果,24小时每小时的预测分辨率。天气预报也可用于模型训练,也可以作为预测的输入,仍然提供了一个小时分辨率的各个太阳能电厂的发电量实测,但数据仅包含训练期间。

03

GEFCom 2017 Dtaset

新兴技术例如微电网、电动汽车、屋顶太阳能电池板和智能电池,都在挑战电力行业的传统运营实践。尽管需求方面的不确定性将卓越的运营卓越推向网格边缘,但在电力系统层次结构各个级别的概率负载预测变得越来越重要。GEFCOM2017将汇总用于层次概率电力负荷预测的最先进技术和方法。GEFCom2017直接聚焦于美国新英格兰区8个底层区域和两个聚合区域的电力负荷数据。具体区域分区如下表所示:

GEFCom 2017主要是在赛制上的创新,分为排位赛和决赛。排位赛是美国新英格兰的区域和总负荷数据集;决赛是美国公用事业公司400+配送点的电力负荷数据集

排位赛意味着吸引和教育许多背景不同的参赛者,并为决赛做准备。排位赛的比赛包括两个目标量,包括预测美国新英格兰的区域和总负荷(“需求”列),以实时滚动的预测方式发布预测结果。GEFCOM2017-D限制了使用的数据,数据不能超出日历数据,加载(“需求”列)和温度数据(“Drybulb”和“deWpnt”列),ISO New England通过能源、负荷和需求报告的区域信息页面提供,另外再加上美国人事管理办公室发布的联邦假期,可以根据上述数据推断一周和联邦假期。

决赛(GEFCom2017-F)比排位赛更具挑战性。只包括一条赛道,预测美国公用事业公司400+配送点的电力负荷。数据来自真实世界,因此需要预先处理许多数据问题,例如负荷传输和异常。

04

结束语

以上就是GEFCom全球能源预测数据集的所有内容了,数据集下载请关注文章图片右下角平台即可获取。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐