时间序列分析

2023-12-21 21:34:04

常用数据集

在这里插入图片描述

2.monash数据集
官网链接
我们的存储库包含30个数据集,包括公开可用的时间序列数据集(不同格式)和由我们管理的数据集。

DatasetDomainNo: of SeriesMin. LengthMax. LengthCompetitionMultivariateDownloadSource
M1Multiple100115150YesNoYearly Quarterly Monthly YearlyAthanasopoulos et al., 2011
M3Multiple300320144YesNoQuarterly Monthly OtherMakridakis and Hibon, 2000
M4Multiple100000199933YesNoYearly Quarterly Monthly Weekly Daily HourlyMakridakis et al., 2020
TourismTourism131111333YesNoYearly Quarterly MonthlyAthanasopoulos et al., 2011
CIF 2016Banking7234120YesNoMonthlyStepnicka and Burda, 2017
London Smart MetersEnergy556028839648NoNoW Missing W/O MissingJean-Michel, 2019
Aus. Electricity DemandEnergy5230736232272NoNoHalf HourlyCurated by us
Wind FarmsEnergy3396345527040NoNoW Missing W/O MissingCurated by us
DominickSales11570428393NoNoWeeklyJames M. Kilts Center, 2020
BitcoinEconomic1826594581NoNoW Missing W/O MissingCurated by us
Pedestrian CountsTransport6657696424NoNoHourlyCity of Melbourne, 2020
Vehicle TripsTransport32970243NoNoW Missing W/O Missingfivethirtyeight, 2015
KDD Cup 2018Nature270950410920YesNoW Missing W/O MissingKDD Cup, 2018
WeatherNature3010133265981NoNoDailySparks et al., 2020
NN5Banking111791791YesYesDaily W Missing Daily W/O Missing WeeklyBen Taieb et al., 2012
Web TrafficWeb145063803803YesYesDaily W Missing Daily W/O Missing WeeklyGoogle, 2017
SolarEnergy1375256052560NoYes10 Minutes WeeklySolar, 2020
ElectricityEnergy3212630426304NoYesHourly WeeklyUCI, 2020
CarPartsSales26745151NoYesW Missing W/O Missing
FRED-MDEconomic107728728NoYesMonthlyMcCracken and Ng, 2016
San Francisco TrafficTransport8621754417544NoYesHourly WeeklyCaltrans, 2020
RideshareTransport2304541541NoYesW Missing W/O MissingCurated by us
HospitalHealth7678484NoYesMonthlyHyndman, 2015
COVID DeathsNature266212212NoYesDailyJohns Hopkins University, 2020
Temperature RainNature32072725725NoYesW Missing W/O MissingCurated by us
SunspotNature17393173931NoNoW Missing W/O MissingSunspot, 2015
Saugeen River FlowNature12374123741NoNoDailyMcLeod and Gweon, 2013
US BirthsNature173057305NoNoDailyPruim et al., 2020
Solar PowerEnergy173972227397222NoNo4 SecondsCurated by us
Wind PowerEnergy173971477397147NoNo4 SecondsCurated by us

常用指标

MSE(mean square error)均方误差
RMSE(root mean square error) 均方根误差
MAE(mean absolute error) 平均绝对误差
MAPE(mean absolute percentage error) 平均绝对百分比误差
SMAPE(Symmetric Mean Absolute Percentage Error) 对称平均绝对百分比误差

对比:先对比有平方操作和没有平方操作的,平方操作会放大单个点的误差,对误差的惩罚更大,因此有平方操作的对异常点更加明显,没有平方的操作对所有误差一视同仁,对异常点不敏感。

MSE和RMSE: RMSE 的值可以更直观地解释为与目标变量相同单位的标准差。这使得 RMSE 更容易理解,因为它具有与数据相同的度量单位。

SMAPE vs MAPE:SMAPE 在处理分母为零的情况时更稳健,因为分母考虑了真实值与预测值的绝对值的和。

MAE vs MAPE:MAE: MAE 的单位与原始数据的单位相同,因为它是误差的平均绝对值。
MAPE: MAPE 的结果是以百分比形式表示的,不受原始数据单位的影响。它以百分比来度量相对误差。

均方误差(Mean Absolute Error,MAE)和平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)在不同的应用场景中可能更适用,取决于对误差度量的不同关注点。以下是它们适用场景的一些特点:

MAE 的适用场景:

误差大小关键: 当关注模型预测的绝对误差的大小时,MAE 是一个合适的选择。它直接度量了预测误差的平均绝对值,对于业务问题中误差的实际大小提供了直观的度量。

MAPE 的适用场景:

相对误差关键: 当关注模型预测的相对误差的大小时,MAPE 是更合适的选择。它将每个样本的绝对误差与相应的真实值的百分比进行比较,更强调相对误差的百分比。

数据具有不同尺度: MAPE 在处理具有不同尺度的数据时可能更为合适,因为它以百分比形式提供了一个相对的度量,不受原始数据单位的影响。MAPE因此可以适用于不同数据集之间的比较。

常用方法

统计方法
机器学习方法
深度学习方法
基于transformer的方法
基于预训练大模型的方法

实验设计

1.不同时间序列任务:预测、分类、异常检测
2.不同类型任务:监督、自监督、迁移
3.数据集:zero-shot,one-shot,all
4.变量:多预测多,多预测单、单预测单、部分变量预测
5.训练方法:fine-tuning, linear probing, and supervising from scratch
6.消融实验:w/o replace 超参数
LookbackWindow(seq_len)
pred_len
patch_len
patch_num
关于超参数的实验往往使用图来展示
7.指标:性能相关:mse、mae;效率:时间;体量:参数量

实验分析

CKA相似度
SHAP
除了SHAP之外,还有一些其他用于解释机器学习模型的方法。这些方法各有特点,适用于不同类型的模型和任务。以下是一些常见的模型解释方法:

1.LIME(Local Interpretable Model-agnostic Explanations): LIME是一种模型无关的局部解释方法,它通过在局部生成一个简单的可解释模型来解释黑盒模型的预测。LIME通过在输入空间中生成随机样本,观察它们的模型输出,然后拟合一个简单的解释模型,以近似原始模型在该点的行为。
2.Feature Importance(特征重要性): 这是一种简单但常用的解释方法,通过分析模型中各个特征对于输出的相对重要性。随机森林、决策树等模型通常提供特征重要性的直接输出。
3.Partial Dependence Plots(偏依赖图): 偏依赖图显示模型输出与某个特征之间的关系,保持其他特征不变。通过观察这些图表,可以了解模型是如何对单个特征进行响应的。
4.Shapley Regression Values(SRV): 类似于SHAP值,SRV是一种基于博弈论的解释方法,用于解释回归模型的预测。它提供了每个特征对于整体预测的贡献。
5.TreeInterpreter: 针对树模型(如决策树和随机森林),TreeInterpreter可以解释单个预测是如何通过模型的各个树来形成的。
6.LASSO Regression: 在线性回归中,使用LASSO(Least Absolute Shrinkage and Selection Operator)进行特征选择,可以得到一个稀疏模型,从而识别对输出有重要贡献的特征。
7.Global Surrogate Models: 这是一种通过在原始模型周围训练一个可解释的替代模型来解释复杂模型的方法。例如,用一个简单的线性模型来近似复杂的深度学习模型。

选择合适的解释方法取决于具体的问题、模型和数据。通常,结合多种解释方法可以提供更全面的理解。值得注意的是,不同的解释方法对于不同类型的模型和任务可能具有不同的适用性和可解释性。

文章来源:https://blog.csdn.net/m0_51312071/article/details/134221180
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。