例子代码

https://github.com/lilihongjava/prophet_demo/tree/master/outliers

# encoding: utf-8
"""
@author: lee
@time: 2019/8/8 9:35
@file: main.py
@desc: 
"""
from fbprophet import Prophet
import pandas as pd


def main():
    df = pd.read_csv('./data/example_wp_log_R_outliers1.csv')
    m = Prophet()
    m.fit(df)
    future = m.make_future_dataframe(periods=1096)
    forecast = m.predict(future)
    fig = m.plot(forecast)
    fig.show()

    df.loc[(df['ds'] > '2010-01-01') & (df['ds'] < '2011-01-01'), 'y'] = None
    model = Prophet().fit(df)
    fig = model.plot(model.predict(future))
    fig.show()

    df = pd.read_csv('./data/example_wp_log_R_outliers2.csv')
    m = Prophet()
    m.fit(df)
    future = m.make_future_dataframe(periods=1096)
    forecast = m.predict(future)
    fig = m.plot(forecast)
    fig.show()

    df.loc[(df['ds'] > '2015-06-01') & (df['ds'] < '2015-06-30'), 'y'] = None
    m = Prophet().fit(df)
    fig = m.plot(m.predict(future))
    fig.show()


if __name__ == "__main__":
    main()

异常值有两种主要方式可以影响prophet的预测。以下,我们对之前例子中记录维基百科中R语言页面访问数的数据进行预测,但是我们造了一段问题数据(2010-01到2010-05都是5,2010-06到2011-01都是8,2010-06-01为6.76272950693188):

df = pd.read_csv('./data/example_wp_log_R_outliers1.csv')
m = Prophet()
m.fit(df)
future = m.make_future_dataframe(periods=1096)
forecast = m.predict(future)
fig = m.plot(forecast)

趋势预测看似合理,但不确定性区间似乎过于宽泛。Prophet能够处理历史数据中的异常值,但只能通过趋势变化来拟合它们。不确定性模型预计未来趋势变化的幅度与历史是相似的。

处理异常值的最佳方法是删除它们 - prophet对丢失数据是不影响的。如果将历史数据的值设置NA为但在future里保留对应的日期,则Prophet将能提供其值的预测。

df.loc[(df['ds'] > '2010-01-01') & (df['ds'] < '2011-01-01'), 'y'] = None
model = Prophet().fit(df)
fig = model.plot(model.predict(future))

在上面的例子中,异常值扰乱了不确定性估计,但没有影响预测值yhat。情况并非总是如此,例如在以下示例中添加了异常值:

df = pd.read_csv('./data/example_wp_log_R_outliers2.csv')
m = Prophet()
m.fit(df)
future = m.make_future_dataframe(periods=1096)
forecast = m.predict(future)
fig = m.plot(forecast)

 

此例中,在2015年6月造了一组极端异常值的数据来扰乱季节性估计,因此它们将影响到预测的值。和上个例子一样,正确的方法是删除它们:

df.loc[(df['ds'] > '2015-06-01') & (df['ds'] < '2015-06-30'), 'y'] = None
m = Prophet().fit(df)
fig = m.plot(m.predict(future))

 

 

 

参考资料:

https://facebook.github.io/prophet/docs/outliers.html 

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐